什么是數(shù)據(jù)分析/數(shù)據(jù)科學(xué)?

大數(shù)據(jù)

作者:iGuo

無(wú)論是學(xué)術(shù)研究還是業(yè)界實(shí)踐,解決問(wèn)題都是生產(chǎn)力的關(guān)鍵。而解決問(wèn)題,首先要定義問(wèn)題。當(dāng)經(jīng)驗(yàn)不可靠,實(shí)驗(yàn)做不了(或者成本太高)的時(shí)候,我們只能依賴歷史信息幫助我們做關(guān)于未來(lái)的決策,特別是在與人有關(guān)的社科和商科領(lǐng)域。方法我們大體可以分為兩大類,一大類是定性方法,一大類是定量方法。定性方法在社會(huì)學(xué)和心理學(xué)領(lǐng)域等領(lǐng)域仍然發(fā)揮著巨大的作用,不過(guò)不是本文的討論重點(diǎn);另一大類是定量方法,隨著統(tǒng)計(jì)學(xué)方法和計(jì)算機(jī)技術(shù)的發(fā)展,定量方法變得越來(lái)越可靠,因此發(fā)展迅速。大家概念中的“數(shù)據(jù)分析”或者“數(shù)據(jù)科學(xué)”,通常指的就是定量地定義問(wèn)題、并基于歷史觀測(cè)數(shù)據(jù)(而不是實(shí)驗(yàn)數(shù)據(jù))和定量方法解決問(wèn)題,讓數(shù)據(jù)自己講故事而不是通過(guò)經(jīng)驗(yàn)或者通過(guò)實(shí)驗(yàn)講故事。因此,所有有可靠的可定量的數(shù)據(jù)的問(wèn)題都可以基于數(shù)據(jù)分析方法解決,而遠(yuǎn)不止商業(yè)問(wèn)題。那么怎么定量的定義問(wèn)題和怎么使用歷史觀測(cè)數(shù)據(jù)定量地解決問(wèn)題呢?

首先討論定量地定義問(wèn)題。問(wèn)題的定義可以分為三步:

第一步,把問(wèn)題目標(biāo)定量地定義成因變量y。比如說(shuō),CPP最近在組織發(fā)放問(wèn)卷的助研項(xiàng)目,那么我們的問(wèn)題就可以被定義為“助研團(tuán)隊(duì)發(fā)放的總問(wèn)卷數(shù)”。

第二步,把可能的因素定量地定義成自變量x。比如說(shuō),給助研更多的激勵(lì)可以刺激更多助研加入,從而提高總問(wèn)卷發(fā)放數(shù)量;給問(wèn)卷做更多的培訓(xùn)可以讓助研更有經(jīng)驗(yàn),從而提高每個(gè)人平均發(fā)放的問(wèn)卷數(shù)。

第三步,找出y和x的關(guān)系,即y=f(x)+e。這里的f是一個(gè)映射關(guān)系,不一定一定要是一個(gè)含參數(shù)的線性或者非線性函數(shù),e是誤差項(xiàng)。這里的關(guān)系有兩大類,一大類是相關(guān)關(guān)系,關(guān)注E(y|x)或者E(y|observe(x)),可以用來(lái)做預(yù)測(cè),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)比較多關(guān)注預(yù)測(cè)關(guān)系或者統(tǒng)計(jì)上的因果關(guān)系(即如何預(yù)測(cè),而不是真正的因果關(guān)系);另一大類是因果關(guān)系,關(guān)注E(y|do(x)),可以用來(lái)做因果解釋,通常要求我們?cè)谇罢叩幕A(chǔ)上結(jié)合問(wèn)題背景和學(xué)科背景的準(zhǔn)實(shí)驗(yàn)方法讓observe可以當(dāng)成do來(lái)處理(比如經(jīng)濟(jì)學(xué)中的自然實(shí)驗(yàn)、IV、DID、斷點(diǎn)回歸等簡(jiǎn)化模型方法),或者基于問(wèn)題背景和學(xué)科背景的可以解釋x到y(tǒng)的邏輯以及do(x)如何影響y的方法(比如經(jīng)濟(jì)學(xué)中的結(jié)構(gòu)模型方法),這是計(jì)量經(jīng)濟(jì)學(xué)關(guān)注的重點(diǎn)。我們希望得到的結(jié)論是,有(observe)哪些身體特征(自變量x)的病人更可能得以及在多大程度上可能(相關(guān)關(guān)系)胃?。ㄒ蜃兞縴),或者吃了(do)什么藥(自變量x)更可能以及多大程度上可能(因果關(guān)系)讓病人的病好(因變量y,是否病好可以是0、1變量)。

下面討論如何基于歷史觀測(cè)數(shù)據(jù)定量地解釋數(shù)據(jù)。

第一步,獲取數(shù)據(jù)。巧婦難為無(wú)米之炊,基于觀測(cè)數(shù)據(jù)解決問(wèn)題,首先就要有觀測(cè)數(shù)據(jù)。這個(gè)問(wèn)題可以簡(jiǎn)單也可以復(fù)雜,解決這個(gè)問(wèn)題的方法也越來(lái)越多。比如大家熟悉的網(wǎng)頁(yè)爬蟲,就是常見(jiàn)的一種收集海量互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)的方法,網(wǎng)頁(yè)爬蟲技術(shù)的進(jìn)步幫助很多問(wèn)題提供了數(shù)據(jù)源。

第二步,清洗數(shù)據(jù)。原始數(shù)據(jù)通常是很混亂的,很難直接用作分析。比如說(shuō),從天貓或者京東獲取的商品名通常是極度混亂的,比如“徐同泰豆撈醬油壽司海鮮火鍋澳門豆撈調(diào)味品生抽日本日式刺身調(diào)料”(徐同泰豆撈醬油壽司海鮮火鍋澳門豆撈調(diào)味品生抽日本日式刺身調(diào)料-tmall.com天貓),這是一個(gè)醬油,但是如果直接看名字……我們經(jīng)常需要通過(guò)各種自動(dòng)化程序甚至大量的人工來(lái)處理掉這些亂七八糟的情況,通常這部分會(huì)占一個(gè)數(shù)據(jù)分析項(xiàng)目80%以上的工作量。

第三步,特征提取。傳統(tǒng)問(wèn)題下提取特征是比較容易的,比如說(shuō)數(shù)一下某類商品的數(shù)量、把年齡按某個(gè)規(guī)則分為幾組,把字符串變量打標(biāo)簽成離散變量等等。在大數(shù)據(jù)背景下,我們需要從海量的數(shù)據(jù)里面挖出新的信息作為自變量x,比如說(shuō)我們需要挖掘文本的特定詞語(yǔ)的詞頻特征做這個(gè)文本的特征,特征提取本身就會(huì)成為一個(gè)巨大的麻煩。

第四步,描述統(tǒng)計(jì)。描述統(tǒng)計(jì)包括兩類,單變量特征和變量之間的聯(lián)系。比如我們可以去看某一個(gè)x或者y的均值、方差、極值、分布等特征,或者去看某一個(gè)x和y的關(guān)系(比如散點(diǎn)圖),或者根據(jù)某一個(gè)x分組的y的分布,或者根據(jù)某一個(gè)y分組的x的特征。業(yè)界常說(shuō)的用戶畫像的一類工作就是基于多變量的描述統(tǒng)計(jì)來(lái)看根據(jù)某一個(gè)特征標(biāo)記的某一用戶群體的特征。

第五步,建立模型。無(wú)論是預(yù)測(cè)類問(wèn)題還是解釋性問(wèn)題,通常情況下都可以從相關(guān)關(guān)系開(kāi)始,如果需要理解因果關(guān)系,再結(jié)合相關(guān)問(wèn)題背景和理論背景構(gòu)建更進(jìn)一步的模型。根據(jù)y是連續(xù)變量還是離散變量,可以把定量模型分為離散模型和連續(xù)模型兩大類,兩類模型在建立相關(guān)關(guān)系和因果關(guān)系的處理上有一定的不同,此處不再深入展開(kāi)。當(dāng)x是離散變量,特別是分類變量時(shí),也要特別注意在解釋模型結(jié)果的時(shí)候是幾個(gè)不同類數(shù)據(jù)的區(qū)別,而不是一個(gè)增加x可以增加或者減少y的關(guān)系。

第六步,評(píng)估模型。無(wú)論是預(yù)測(cè)類問(wèn)題還是解釋性問(wèn)題,我們都希望模型本身是可靠的、經(jīng)得起檢驗(yàn)的。最可靠的檢驗(yàn)方式自然是放在未來(lái)某個(gè)(數(shù)據(jù)分析師/數(shù)據(jù)科學(xué)家認(rèn)為)不超過(guò)模型的解釋能力范圍的場(chǎng)景下檢驗(yàn)預(yù)測(cè)結(jié)果和實(shí)際結(jié)果是不是一致。次可靠的方法是從現(xiàn)有數(shù)據(jù)中取出一部分來(lái)做測(cè)試,具體方法有很多。如何定義評(píng)估模型的目標(biāo)呢?統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)通常用loss function來(lái)作為模型的可靠性的指標(biāo),最常用的loss function是MSE,在線性回歸里是R^2;傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)經(jīng)常更關(guān)注E(y|x)是否有偏;其他的問(wèn)題背景可能數(shù)據(jù)分析師或者數(shù)據(jù)科學(xué)家會(huì)自定義相對(duì)可靠的評(píng)估方法。

最后解釋一些關(guān)于數(shù)據(jù)分析常見(jiàn)的問(wèn)題。

數(shù)據(jù)分析一定比傳統(tǒng)方法更好嗎?不一定,因?yàn)榭煽康臄?shù)據(jù)分析才更可能比傳統(tǒng)方法發(fā)現(xiàn)更多insight,而達(dá)到“可靠”這個(gè)指標(biāo)通常非常困難,特別是從相關(guān)性到因果性這一步特別容易慘死。知乎上有很多打著“數(shù)據(jù)分析”的名頭的文章是有邏輯漏洞的,比如

@慧航?老師有很多寫的非常精準(zhǔn)的批評(píng)(比如,慧航:如何評(píng)價(jià)「城市數(shù)據(jù)團(tuán)」的文章《遠(yuǎn)離你終將衰落的家鄉(xiāng)》?),大家可以去閱讀一下。在避免了邏輯錯(cuò)誤導(dǎo)致的混淆因果、弄反影響方向(系數(shù)弄反符號(hào))等不可原諒的錯(cuò)誤的前提下,即使是結(jié)論比較局限的數(shù)據(jù)分析也是有意義的,甚至有時(shí)候反思清楚錯(cuò)誤的結(jié)論以后也可以發(fā)現(xiàn)局限所在,而這些局限可以幫助我們更好地了解這個(gè)復(fù)雜問(wèn)題的一角,很可能就是未來(lái)完整解決方案的一角。比如說(shuō),我們控制了n個(gè)條件以后,我們發(fā)現(xiàn)某個(gè)線性回歸的計(jì)量結(jié)果可以解釋x到y(tǒng)的因果,但是R^2只有不到0.1(這種情況很常見(jiàn)……),從計(jì)量角度來(lái)說(shuō),這是一個(gè)有意義的結(jié)論;但是從統(tǒng)計(jì)學(xué)來(lái)說(shuō),這是一個(gè)沒(méi)有預(yù)測(cè)力的結(jié)論,還可能有很多復(fù)雜的因素(x_1,x_2, …, x_10^10,…)影響y,y這個(gè)大問(wèn)題可能還沒(méi)有被回答完,還需要進(jìn)一步更深入的研究。

建模一定比不建模好嗎?不一定,要看問(wèn)題是不是一定需要模型才能說(shuō)清楚。建模比不建模復(fù)雜,當(dāng)簡(jiǎn)單的描述統(tǒng)計(jì)就可以看出相關(guān)關(guān)系甚至因果關(guān)系(比如可以假設(shè)其他條件相同,E(y|x=1)-E(y|x=0)>0,treatment effect為正,正向因果關(guān)系成立)的時(shí)候,建模不一定能獲取更多信息,錯(cuò)誤的建模甚至?xí)玫藉e(cuò)誤信息或者無(wú)效信息,浪費(fèi)成本。實(shí)習(xí)的時(shí)候有次主管讓我做個(gè)分組統(tǒng)計(jì),我想看一下模型是不是更好,就沒(méi)做描述之前直接做了一個(gè)logit,結(jié)果得到了很奇怪的結(jié)果,后來(lái)畫了散點(diǎn)圖才發(fā)現(xiàn)y=1和0的數(shù)據(jù)密密麻麻地分布在每一個(gè)x上(數(shù)據(jù)量很大),所以導(dǎo)致用不合適的模型反而不如不做模型來(lái)的直觀。當(dāng)數(shù)據(jù)量很大的時(shí)候,直接從不同的角度描述就有可能得到很多很多有用的信息,很多時(shí)候已經(jīng)可以滿足需求,再進(jìn)一步研究可能對(duì)關(guān)注的重點(diǎn)沒(méi)有什么幫助,建模可能成為很低效的問(wèn)題。

因果關(guān)系一定比相關(guān)關(guān)系好嗎?不一定,要看問(wèn)題的關(guān)注點(diǎn)。當(dāng)我們關(guān)注“可能是什么”,我們需要做更多預(yù)測(cè),這個(gè)時(shí)候我們應(yīng)該關(guān)注相關(guān)關(guān)系;當(dāng)我們關(guān)注“為什么是這樣”,我們需要做更多解釋,這個(gè)時(shí)候我們應(yīng)該關(guān)注因果關(guān)系。比如說(shuō)我的畢業(yè)論文研究電商平臺(tái)的搜索算法如何影響消費(fèi)者和生產(chǎn)者決策,我建立了基于consideration set approach的(動(dòng)態(tài))結(jié)構(gòu)模型,把消費(fèi)者的選擇分為兩步:第一步,平臺(tái)推薦算法推薦商品給消費(fèi)者,比如第一頁(yè)的商品通常更容易被看到;第二步,消費(fèi)者從看到的商品里面做購(gòu)買選擇。第二步的模型是一個(gè)基于random utility framework的離散選擇模型,是一個(gè)標(biāo)準(zhǔn)的用來(lái)解釋因果關(guān)系的結(jié)構(gòu)模型;第一步我嘗試了將近一年,用參考文獻(xiàn)里面用的可以解釋機(jī)理的概率模型,已經(jīng)徹底宣告失敗,這里我關(guān)心的是算法最可能推薦什么,而不需要非常清楚地推薦的過(guò)程(因?yàn)樗惴ū旧順O其復(fù)雜,簡(jiǎn)單的模型不可能準(zhǔn)確解釋機(jī)理,概率模型有利于人理解機(jī)理;文章關(guān)注的也不是算法的機(jī)理,而是算法的影響),更好的辦法是通過(guò)訓(xùn)練數(shù)據(jù)找出最好的預(yù)測(cè)模型。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-11-10
什么是數(shù)據(jù)分析/數(shù)據(jù)科學(xué)?
作者:iGuo 無(wú)論是學(xué)術(shù)研究還是業(yè)界實(shí)踐,解決問(wèn)題都是生產(chǎn)力的關(guān)鍵。而解決問(wèn)題,首先要定義問(wèn)題。當(dāng)經(jīng)驗(yàn)不可靠,實(shí)驗(yàn)做不了(或者成本太高)的時(shí)候,我們只能依賴

長(zhǎng)按掃碼 閱讀全文