因果關(guān)系和相關(guān)關(guān)系在分析過(guò)程中應(yīng)用廣泛。 然而,一部分人在不了解兩種方法的支撐邏輯時(shí)往往將兩種關(guān)系等同看待。 顯然,人們被困于因果和相關(guān)的內(nèi)在聯(lián)系而不能正確的使用它們。 雖然在英文發(fā)音上兩者比較近似,但其適用分析的現(xiàn)象卻大有不同,它們基本的含義也有很大區(qū)別。
為了理清楚因果與相關(guān)關(guān)系的區(qū)別,我們下面進(jìn)行一些小小的測(cè)驗(yàn)。分析以下例子中的現(xiàn)象, 然后判斷在兩個(gè)事務(wù)(X 和 Y)之間是否存在必然因果關(guān)系。答案在測(cè)試后公布。
例1: X:學(xué)生受教育的等級(jí) Y:畢業(yè)后的薪水
前提:學(xué)校B學(xué)生畢業(yè)后拿到的平均工資更高,接受學(xué)校B的教育是導(dǎo)致工作較好的原因嗎?
例 2:X: 吸煙 Y:精神壓力水平
前提: 吸煙的人精神壓力水平較大,那么吸煙會(huì)產(chǎn)生壓力嗎?
例3:X:有孩子 Y:成熟水平
前提:有孩子的人更加成熟,有孩子是成熟的原因嗎?
例4:X:海拔 Y: 高度
前提:海拔越高的地方我們感覺(jué)越冷。這是不是意味著海拔是導(dǎo)致溫度低的原因?
我希望上面的例子已經(jīng)激發(fā)了你閱讀本文的熱情。 雖然,因果與相關(guān)的區(qū)別是一個(gè)老掉牙的話題,但是人們依舊不能很好的掌控這些術(shù)語(yǔ)。 本文將試圖通過(guò)最簡(jiǎn)單的方式解釋因果和相關(guān)關(guān)系。
在這篇文章中,我將通過(guò)了解是否只有相關(guān)關(guān)系或者存在必然因果關(guān)系來(lái)區(qū)分因果關(guān)系和相關(guān)關(guān)系的區(qū)別。 考慮到我們往往采用黑箱操作進(jìn)行分析,所以想讓分析基礎(chǔ)更牢靠的話,了解這些概念是非常必要的。 一些技術(shù)并沒(méi)有展現(xiàn)在分析中,但它們的應(yīng)用卻貫穿整個(gè)工業(yè)。
測(cè)試答案:
例1:必然因果關(guān)系不存在。例如,如果只有天賦比較高的人才會(huì)有機(jī)會(huì)接受B學(xué)校的教育,而天賦比較高的人更容易獲得高的薪資水平。因此這些高智商的小伙伴即使不接受B學(xué)校的教育也能得到很高的薪水。所以薪水高有其他備選因素。
例2:必然因果關(guān)系不存在。我們可以基于逆因果關(guān)系來(lái)否定該命題。例如,壓力大導(dǎo)致一個(gè)人吸煙。
例3:必然因果關(guān)系不存在。同樣我們可以采用逆因果關(guān)系來(lái)否定該命題。例如:成熟的人才準(zhǔn)備要孩子。我們也可以將成熟與否歸結(jié)于年齡。年齡越大,越傾向于要孩子,也越來(lái)越成熟。
例4:必然因果關(guān)系不存在。再用逆因果關(guān)系來(lái)分析該命題有些不可能??赏ㄟ^(guò)相互獨(dú)立關(guān)系和備擇原因分析來(lái)拒絕該命題。
那么什么是建立必然因果關(guān)系的關(guān)鍵呢?
備擇原因:如果備擇原因(Z)既影響X又影響Y(即Z=>X &Z=>Y同時(shí)成立),則拒絕X是導(dǎo)致Y的必然原因。
逆因果關(guān)系:如果不是X影響Y,而是Y影響X,則不能推出X是導(dǎo)致Y的必然原因。
相互獨(dú)立:一些時(shí)候,X與Y之間可能只是單純的相關(guān)而沒(méi)有任何因果聯(lián)系。
怎樣提取因果關(guān)系帶來(lái)的影響呢?
在很多領(lǐng)域(例如制藥),研究因果效應(yīng)非常中重要。在闡述方法前,我們先了解一些定義:
1)隨機(jī)試驗(yàn)數(shù)據(jù):一個(gè)試驗(yàn)定義為給不同的條件分配觀測(cè)單元。條件的不同往往是對(duì)觀測(cè)單元的控制手段不同。通過(guò)試驗(yàn)獲得的數(shù)據(jù)為隨機(jī)試驗(yàn)數(shù)據(jù)。
2)觀測(cè)數(shù)據(jù): 很多時(shí)候進(jìn)行隨機(jī)試驗(yàn)是一種奢侈,我們只能獲得已有的數(shù)據(jù)資源。這些數(shù)據(jù)已經(jīng)產(chǎn)生,并且不能設(shè)定發(fā)生條件。
提取觀測(cè)數(shù)據(jù)中的因果效應(yīng)是非常難且不確定的。為得到確定的因果關(guān)系,我們需要進(jìn)行隨機(jī)試驗(yàn)。
為什么觀測(cè)數(shù)據(jù)不能確定其因果關(guān)系呢?
1)觀測(cè)數(shù)據(jù)的獲得不是隨機(jī)的,我們不能總結(jié)出其中的因果效應(yīng)
2)舉個(gè)例子來(lái)說(shuō),學(xué)生從學(xué)校B畢業(yè)會(huì)有高薪資水平,這不能表示薪資水平與接受B學(xué)校教育的因果關(guān)系,因?yàn)榻邮蹷學(xué)校教育是有前提的。
3)如果我們隨機(jī)的選擇學(xué)生去參加B學(xué)校的教育,那么接受B學(xué)校教育和薪資水平之間的因果關(guān)系才比較牢靠。
為什么不能總是進(jìn)行隨機(jī)試驗(yàn)?zāi)兀?/b>
1)有時(shí)試驗(yàn)成本非常昂貴。
2)很多時(shí)候,并不是所有的試驗(yàn)都可以進(jìn)行。例如你想知道抽煙是否會(huì)產(chǎn)生壓力,這樣你需要迫使正常的人吸煙,這往往是不能實(shí)現(xiàn)的。
在這些情況下,應(yīng)如何利用觀測(cè)數(shù)據(jù)進(jìn)行因果效應(yīng)提取呢?
針對(duì)觀測(cè)數(shù)據(jù)的因果效應(yīng)提取有很多研究。大部分研究的目標(biāo)是消除未知因素的影響。在這里我將羅列一些被廣泛應(yīng)用的方法。
1、 面板模型:如果未觀測(cè)的變量在某一維度上是不變的,那么這個(gè)方法將非常簡(jiǎn)單。例如,如果未觀測(cè)的變量不隨時(shí)間發(fā)生變化,我們可以建立面板模型用以剔除其他未觀測(cè)因素的影響。B學(xué)校=>高薪資的例子中,我們假設(shè)所有其他因素不隨時(shí)間變化。然后進(jìn)行如下處理:
(1) 將薪資y對(duì)優(yōu)質(zhì)學(xué)校(用上標(biāo)T表示)以及未觀測(cè)因素(用上標(biāo)U表示)做回歸。
(2) 未觀測(cè)因素不隨時(shí)間變化,簡(jiǎn)化模型如下:
(3) 差分剔除未觀測(cè)因素的影響:
得到接受優(yōu)質(zhì)學(xué)校教育和薪資水平的因果關(guān)系系數(shù)。
2、 模擬控制:觀測(cè)數(shù)據(jù)最大的問(wèn)題在于我們沒(méi)有獲得控制樣本和非控制樣本。以吸煙的例子來(lái)說(shuō),一個(gè)人不能同時(shí)吸煙又不吸煙。
但是,如果我們找到控制樣本的對(duì)應(yīng)的非控制樣本,比較相對(duì)應(yīng)的觀測(cè)數(shù)據(jù),將有助于提取因果效應(yīng)。這是工業(yè)生產(chǎn)中運(yùn)用的最多的方法。
對(duì)應(yīng)的非控制樣本可以采用最近鄰法則,k-d 樹(shù),或其他方法獲得。讓我們來(lái)舉一個(gè)例子,設(shè)有兩組相同年齡、性別和收入等的人。一組開(kāi)始吸煙,另一組不吸煙。在其他條件不變的情況下,一段時(shí)間內(nèi)兩組人員的壓力水平可以進(jìn)行比較。
雖然,上述方法在理論上聽(tīng)起來(lái)非常鼓舞人心,但是只改變一個(gè)變量而其他變量不變的對(duì)應(yīng)樣本非常難以獲得,這往往導(dǎo)致因果效應(yīng)的提取錯(cuò)誤。這將在以后更深入的文章中進(jìn)行討論。
3、 工具變量法(IV):這也許是我將介紹的最困難的方法。步驟如下:
(1)找到原因結(jié)果對(duì)
(2)找到一種因素與原因因素有關(guān)但與結(jié)果因素對(duì)原因因素回歸得到殘差無(wú)關(guān)。這種因素被稱為工具變量。
(3)用工具變量估計(jì)原因變量
(4)用估計(jì)的原因變量回歸結(jié)果變量,得到真實(shí)的原因與結(jié)果對(duì)之間的因果相應(yīng)
在觀測(cè)數(shù)據(jù)中,采用回歸分析方法得到的原因因素和結(jié)果因素之間系數(shù)關(guān)系是有偏的。采用工具變量法,可以得到一個(gè)無(wú)偏的系數(shù)估計(jì)結(jié)果。在吸煙與精神壓力的例子中,我們認(rèn)為可能存在逆向的結(jié)果。如果我們可以找到和煙草消費(fèi)量有關(guān)和精神壓力無(wú)關(guān)的變量,也許我們能獲得吸煙與精神壓力之間真實(shí)因果關(guān)系。例如,我們發(fā)現(xiàn)監(jiān)管稅會(huì)提高煙草的價(jià)格并降低煙草的消費(fèi)。那么我們可以將監(jiān)管稅作為工具變量而研究吸煙和精神壓力之間的關(guān)系。
4、 回歸的非連續(xù)性設(shè)計(jì):這是我(作者非譯者)最喜歡的方法。該方法使得觀察數(shù)據(jù)接近隨機(jī)試驗(yàn)數(shù)據(jù)。
在下圖中,存在控制條件與非控制條件在人口比率上的一個(gè)斷點(diǎn)。假設(shè)我們想檢驗(yàn)獎(jiǎng)學(xué)金對(duì)學(xué)生成績(jī)的影響。注意,獎(jiǎng)學(xué)金一般提供給預(yù)科考試成績(jī)?cè)?0%以上的學(xué)生。這里將會(huì)產(chǎn)生一個(gè)扭曲。例如聰明的學(xué)生將繼續(xù)他們的智慧。因此將非常難剝離出獎(jiǎng)學(xué)金與后期考試成績(jī)的關(guān)系。
但是,如果我們只比較成績(jī)稍微低于80%(比如79.9%)和成績(jī)稍微高于80%(比如80.1%)的學(xué)生,將產(chǎn)生不一樣的結(jié)果。假設(shè)成績(jī)?cè)?9.9%與成績(jī)?cè)?0.1%的學(xué)生的差異不明顯。唯一影響他們后期考試成績(jī)的只有獎(jiǎng)學(xué)金這一個(gè)因素。這樣的研究就類似于隨機(jī)設(shè)計(jì)實(shí)驗(yàn)中的控制變量法了。
采用該方法將很好地推斷出因果效應(yīng)。不過(guò),獲得一個(gè)有斷點(diǎn)的維度是非常的困難。
翻譯:F.xy
原文作者:TAVISH SRIVASTAVA
原文鏈接:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/
End.
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- AI超跑新秀揭秘:理想或?qū)⑸孀愣虅☆I(lǐng)域,廣電部門嚴(yán)查紅果短劇風(fēng)波
- 紅果短劇回應(yīng)被約談:5天內(nèi)暫停新劇上線,積極整改,重樹(shù)內(nèi)容標(biāo)準(zhǔn)
- 互聯(lián)網(wǎng)大廠春節(jié)福利揭秘:高薪休假與日常福利究竟誰(shuí)更勝一籌?
- 亞馬遜CTO預(yù)測(cè):2025年及未來(lái)五大科技趨勢(shì),未來(lái)已來(lái),你準(zhǔn)備好了嗎?
- 鴨鴨羽絨服與夢(mèng)餉科技攜手打造超級(jí)品牌日,GMV同比增長(zhǎng)300%,共贏新零售未來(lái)
- 中國(guó)客戶海外安全案件激增,2025年需應(yīng)對(duì)碎片化風(fēng)險(xiǎn):SOS報(bào)告揭示新挑戰(zhàn)
- 小米布局GPU集群,探索AI大模型新領(lǐng)域,科技巨頭引領(lǐng)未來(lái)趨勢(shì)
- 阿里影業(yè)入股姚安娜經(jīng)紀(jì)公司:新篇章,新機(jī)遇
- 螞蟻森林再度捐資河北種樹(shù),共筑綠色長(zhǎng)城
- 谷歌不打算賤賣自家明星產(chǎn)品:Chrome瀏覽器
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。