123,123

大數(shù)據(jù)

作者：iGuo

無論是學術研究還是業(yè)界實踐，解決問題都是生產(chǎn)力的關鍵。而解決問題，首先要定義問題。當經(jīng)驗不可靠，實驗做不了（或者成本太高）的時候，我們只能依賴歷史信息幫助我們做關于未來的決策，特別是在與人有關的社科和商科領域。方法我們大體可以分為兩大類，一大類是定性方法，一大類是定量方法。定性方法在社會學和心理學領域等領域仍然發(fā)揮著巨大的作用，不過不是本文的討論重點；另一大類是定量方法，隨著統(tǒng)計學方法和計算機技術的發(fā)展，定量方法變得越來越可靠，因此發(fā)展迅速。大家概念中的“數(shù)據(jù)分析”或者“數(shù)據(jù)科學”，通常指的就是定量地定義問題、并基于歷史觀測數(shù)據(jù)（而不是實驗數(shù)據(jù)）和定量方法解決問題，讓數(shù)據(jù)自己講故事而不是通過經(jīng)驗或者通過實驗講故事。因此，所有有可靠的可定量的數(shù)據(jù)的問題都可以基于數(shù)據(jù)分析方法解決，而遠不止商業(yè)問題。那么怎么定量的定義問題和怎么使用歷史觀測數(shù)據(jù)定量地解決問題呢？

首先討論定量地定義問題。問題的定義可以分為三步：

第一步，把問題目標定量地定義成因變量y。比如說，CPP最近在組織發(fā)放問卷的助研項目，那么我們的問題就可以被定義為“助研團隊發(fā)放的總問卷數(shù)”。

第二步，把可能的因素定量地定義成自變量x。比如說，給助研更多的激勵可以刺激更多助研加入，從而提高總問卷發(fā)放數(shù)量；給問卷做更多的培訓可以讓助研更有經(jīng)驗，從而提高每個人平均發(fā)放的問卷數(shù)。

第三步，找出y和x的關系，即y=f(x)+e。這里的f是一個映射關系，不一定一定要是一個含參數(shù)的線性或者非線性函數(shù)，e是誤差項。這里的關系有兩大類，一大類是相關關系，關注E(y|x)或者E(y|observe(x))，可以用來做預測，統(tǒng)計學和機器學習比較多關注預測關系或者統(tǒng)計上的因果關系（即如何預測，而不是真正的因果關系）；另一大類是因果關系，關注E(y|do(x))，可以用來做因果解釋，通常要求我們在前者的基礎上結(jié)合問題背景和學科背景的準實驗方法讓observe可以當成do來處理（比如經(jīng)濟學中的自然實驗、IV、DID、斷點回歸等簡化模型方法），或者基于問題背景和學科背景的可以解釋x到y(tǒng)的邏輯以及do(x)如何影響y的方法（比如經(jīng)濟學中的結(jié)構模型方法），這是計量經(jīng)濟學關注的重點。我們希望得到的結(jié)論是，有（observe）哪些身體特征（自變量x）的病人更可能得以及在多大程度上可能（相關關系）胃?。ㄒ蜃兞縴），或者吃了（do）什么藥（自變量x）更可能以及多大程度上可能（因果關系）讓病人的病好（因變量y，是否病好可以是0、1變量）。

下面討論如何基于歷史觀測數(shù)據(jù)定量地解釋數(shù)據(jù)。

第一步，獲取數(shù)據(jù)。巧婦難為無米之炊，基于觀測數(shù)據(jù)解決問題，首先就要有觀測數(shù)據(jù)。這個問題可以簡單也可以復雜，解決這個問題的方法也越來越多。比如大家熟悉的網(wǎng)頁爬蟲，就是常見的一種收集海量互聯(lián)網(wǎng)公開數(shù)據(jù)的方法，網(wǎng)頁爬蟲技術的進步幫助很多問題提供了數(shù)據(jù)源。

第二步，清洗數(shù)據(jù)。原始數(shù)據(jù)通常是很混亂的，很難直接用作分析。比如說，從天貓或者京東獲取的商品名通常是極度混亂的，比如“徐同泰豆撈醬油壽司海鮮火鍋澳門豆撈調(diào)味品生抽日本日式刺身調(diào)料”（徐同泰豆撈醬油壽司海鮮火鍋澳門豆撈調(diào)味品生抽日本日式刺身調(diào)料-tmall.com天貓），這是一個醬油，但是如果直接看名字……我們經(jīng)常需要通過各種自動化程序甚至大量的人工來處理掉這些亂七八糟的情況，通常這部分會占一個數(shù)據(jù)分析項目80%以上的工作量。

第三步，特征提取。傳統(tǒng)問題下提取特征是比較容易的，比如說數(shù)一下某類商品的數(shù)量、把年齡按某個規(guī)則分為幾組，把字符串變量打標簽成離散變量等等。在大數(shù)據(jù)背景下，我們需要從海量的數(shù)據(jù)里面挖出新的信息作為自變量x，比如說我們需要挖掘文本的特定詞語的詞頻特征做這個文本的特征，特征提取本身就會成為一個巨大的麻煩。

第四步，描述統(tǒng)計。描述統(tǒng)計包括兩類，單變量特征和變量之間的聯(lián)系。比如我們可以去看某一個x或者y的均值、方差、極值、分布等特征，或者去看某一個x和y的關系（比如散點圖），或者根據(jù)某一個x分組的y的分布，或者根據(jù)某一個y分組的x的特征。業(yè)界常說的用戶畫像的一類工作就是基于多變量的描述統(tǒng)計來看根據(jù)某一個特征標記的某一用戶群體的特征。

第五步，建立模型。無論是預測類問題還是解釋性問題，通常情況下都可以從相關關系開始，如果需要理解因果關系，再結(jié)合相關問題背景和理論背景構建更進一步的模型。根據(jù)y是連續(xù)變量還是離散變量，可以把定量模型分為離散模型和連續(xù)模型兩大類，兩類模型在建立相關關系和因果關系的處理上有一定的不同，此處不再深入展開。當x是離散變量，特別是分類變量時，也要特別注意在解釋模型結(jié)果的時候是幾個不同類數(shù)據(jù)的區(qū)別，而不是一個增加x可以增加或者減少y的關系。

第六步，評估模型。無論是預測類問題還是解釋性問題，我們都希望模型本身是可靠的、經(jīng)得起檢驗的。最可靠的檢驗方式自然是放在未來某個（數(shù)據(jù)分析師/數(shù)據(jù)科學家認為）不超過模型的解釋能力范圍的場景下檢驗預測結(jié)果和實際結(jié)果是不是一致。次可靠的方法是從現(xiàn)有數(shù)據(jù)中取出一部分來做測試，具體方法有很多。如何定義評估模型的目標呢？統(tǒng)計學和機器學習通常用loss function來作為模型的可靠性的指標，最常用的loss function是MSE，在線性回歸里是R^2；傳統(tǒng)的計量經(jīng)濟學經(jīng)常更關注E(y|x)是否有偏；其他的問題背景可能數(shù)據(jù)分析師或者數(shù)據(jù)科學家會自定義相對可靠的評估方法。

最后解釋一些關于數(shù)據(jù)分析常見的問題。

數(shù)據(jù)分析一定比傳統(tǒng)方法更好嗎？不一定，因為可靠的數(shù)據(jù)分析才更可能比傳統(tǒng)方法發(fā)現(xiàn)更多insight，而達到“可靠”這個指標通常非常困難，特別是從相關性到因果性這一步特別容易慘死。知乎上有很多打著“數(shù)據(jù)分析”的名頭的文章是有邏輯漏洞的，比如

@慧航?老師有很多寫的非常精準的批評（比如，慧航：如何評價「城市數(shù)據(jù)團」的文章《遠離你終將衰落的家鄉(xiāng)》？），大家可以去閱讀一下。在避免了邏輯錯誤導致的混淆因果、弄反影響方向（系數(shù)弄反符號）等不可原諒的錯誤的前提下，即使是結(jié)論比較局限的數(shù)據(jù)分析也是有意義的，甚至有時候反思清楚錯誤的結(jié)論以后也可以發(fā)現(xiàn)局限所在，而這些局限可以幫助我們更好地了解這個復雜問題的一角，很可能就是未來完整解決方案的一角。比如說，我們控制了n個條件以后，我們發(fā)現(xiàn)某個線性回歸的計量結(jié)果可以解釋x到y(tǒng)的因果，但是R^2只有不到0.1（這種情況很常見……），從計量角度來說，這是一個有意義的結(jié)論；但是從統(tǒng)計學來說，這是一個沒有預測力的結(jié)論，還可能有很多復雜的因素（x_1,x_2, …, x_10^10,…）影響y，y這個大問題可能還沒有被回答完，還需要進一步更深入的研究。

建模一定比不建模好嗎？不一定，要看問題是不是一定需要模型才能說清楚。建模比不建模復雜，當簡單的描述統(tǒng)計就可以看出相關關系甚至因果關系（比如可以假設其他條件相同，E(y|x=1)-E(y|x=0)>0，treatment effect為正，正向因果關系成立）的時候，建模不一定能獲取更多信息，錯誤的建模甚至會得到錯誤信息或者無效信息，浪費成本。實習的時候有次主管讓我做個分組統(tǒng)計，我想看一下模型是不是更好，就沒做描述之前直接做了一個logit，結(jié)果得到了很奇怪的結(jié)果，后來畫了散點圖才發(fā)現(xiàn)y=1和0的數(shù)據(jù)密密麻麻地分布在每一個x上（數(shù)據(jù)量很大），所以導致用不合適的模型反而不如不做模型來的直觀。當數(shù)據(jù)量很大的時候，直接從不同的角度描述就有可能得到很多很多有用的信息，很多時候已經(jīng)可以滿足需求，再進一步研究可能對關注的重點沒有什么幫助，建模可能成為很低效的問題。

因果關系一定比相關關系好嗎？不一定，要看問題的關注點。當我們關注“可能是什么”，我們需要做更多預測，這個時候我們應該關注相關關系；當我們關注“為什么是這樣”，我們需要做更多解釋，這個時候我們應該關注因果關系。比如說我的畢業(yè)論文研究電商平臺的搜索算法如何影響消費者和生產(chǎn)者決策，我建立了基于consideration set approach的（動態(tài)）結(jié)構模型，把消費者的選擇分為兩步：第一步，平臺推薦算法推薦商品給消費者，比如第一頁的商品通常更容易被看到；第二步，消費者從看到的商品里面做購買選擇。第二步的模型是一個基于random utility framework的離散選擇模型，是一個標準的用來解釋因果關系的結(jié)構模型；第一步我嘗試了將近一年，用參考文獻里面用的可以解釋機理的概率模型，已經(jīng)徹底宣告失敗，這里我關心的是算法最可能推薦什么，而不需要非常清楚地推薦的過程（因為算法本身極其復雜，簡單的模型不可能準確解釋機理，概率模型有利于人理解機理；文章關注的也不是算法的機理，而是算法的影響），更好的辦法是通過訓練數(shù)據(jù)找出最好的預測模型。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

什么是數(shù)據(jù)分析/數(shù)據(jù)科學？

下一篇