作者:阿薩姆
眾所周知,數(shù)據(jù)科學是這幾年才火起來的概念,而應(yīng)運而生的數(shù)據(jù)科學家(data scientist)明顯缺乏清晰的錄取標準和工作內(nèi)容。即使在2017年,數(shù)據(jù)科學家這個崗位的依然顯得“既性感又曖昧”。
我隨手搜索了幾家國內(nèi)國外不同領(lǐng)域的數(shù)據(jù)科學家招聘廣告(國內(nèi):阿里巴巴,百度 | 海外: IBM,道明銀行,Manulife保險),通過簡單的歸納總結(jié),我們不難發(fā)現(xiàn)其實崗位要求有很大的重疊部分:
學歷要求:碩士以上學歷,博士優(yōu)先。統(tǒng)計學、計算機科學、數(shù)學等相關(guān)專業(yè)。
工作經(jīng)歷: 3年以上相關(guān)工作經(jīng)驗。
專業(yè)技能: 熟練掌握Hive\SQL\hadoop,熟悉大規(guī)模數(shù)據(jù)挖掘、機器學習、自然語言處理(NLP)
分析語言: R, Python, SAS, JAVA
額外要求: 對數(shù)據(jù)敏感,具備良好的邏輯思維能力、溝通技巧、組織溝通能力、團隊精神以及優(yōu)秀的問題解決能力
有趣的是,這個廣告適用于來大部分的數(shù)據(jù)科學家招聘,甚至不分行業(yè)不分地域??赡芪ㄒ坏牟煌?,金融領(lǐng)域更強調(diào)擅長反欺詐和風控,而電商領(lǐng)域強調(diào)熟悉推薦系統(tǒng),側(cè)重點不同而已。其實這個現(xiàn)象的本質(zhì)就是:數(shù)據(jù)科學家是一個不限行業(yè),擁有廣泛就業(yè)需求,高度”相似”卻又”不同”的職位。因此結(jié)合我自己的經(jīng)驗,以及與國內(nèi)國外這一行同事/朋友的交流心得,我想來談?wù)勎覍?shù)據(jù)科學家這個崗位的理解。
在個人理解的前提下,我想談?wù)劊?. 數(shù)據(jù)科學家為什么是“科學家”?2. 數(shù)據(jù)科學家的工作內(nèi)容有什么? 3. 一些對于數(shù)據(jù)分析的感悟 4. 如何成為一個合格的數(shù)據(jù)科學家?
1. 什么是數(shù)據(jù)科學家?“科學家”是否言過其實?
數(shù)據(jù)科學家成為了一個跨學科職位。我將數(shù)據(jù)科學家定義為: 能夠獨立處理數(shù)據(jù),進行復(fù)雜建模,從中攫取商業(yè)價值,并擁有良好溝通匯報能力的人。
關(guān)于數(shù)據(jù)科學家這個崗位怎么來的,說法不一。我自己的理解是隨著機器學習和更多預(yù)測模型的發(fā)展,數(shù)據(jù)分析變得”大有可為”。為了區(qū)分擁有建模能力的高端人才和普通商業(yè)分析師/數(shù)據(jù)分析師(data analyst),數(shù)據(jù)科學家這個職位自然就產(chǎn)生了。通過這個新崗位,行業(yè)可以與時俱進的吸收高端人才。在機器學習沒有大行其道,也沒有大數(shù)據(jù)支撐之前,這個崗位更貼近統(tǒng)計科學家(statistician),和研究科學家(research scientist)也有一點點相似。
對于科學家,我們的一般的定義是在特定領(lǐng)域有深入研究的人,因此潛臺詞一般是“擁有博士學位的人”。而數(shù)據(jù)科學家的基本要求是碩士以上學歷,甚至有時候本科學歷也會被接受,而且似乎數(shù)據(jù)科學家的工作并不會在特定領(lǐng)域有深度。那么數(shù)據(jù)科學家是否言過其實了?
我的看法是:不,數(shù)據(jù)科學家的“廣度”就是其”深度”。從另外一個角度來看,數(shù)據(jù)科學家的優(yōu)勢在于其優(yōu)秀的跨領(lǐng)域技能,既可以抓取數(shù)據(jù),也可以分析,進行建模,還能將有用的信息用抓人的眼球提供給決策層。能擁有這樣解決問題能力的人,似乎并不愧對一聲“科學家”。
而正因為數(shù)據(jù)分析更要求的廣度而不是深度,所有現(xiàn)在只有紐約大學提供科學博士,而現(xiàn)在大部分從業(yè)的博士都是統(tǒng)計學/計算機/數(shù)學/物理背景。正是這個原因,這個行業(yè)對于數(shù)據(jù)科學家的要求是碩士及以上,而計算機或者統(tǒng)計的人更適合的原因是其在機器學習/統(tǒng)計學習方面的積累,其他所需技能可以以很低的代價趕上。相對應(yīng)的,如果一個心理學博士想要從事這一行就會發(fā)現(xiàn)需要補充的技能太多,而因此不能適應(yīng)這個崗位。
與研究科學家(research scientist)相比,數(shù)據(jù)科學家更像是全能手但在特定領(lǐng)域深度不足。和普通分析師(analyst)相比,數(shù)據(jù)科學家應(yīng)該有更強的建模和分析能力。在和數(shù)據(jù)工程師相對比時,數(shù)據(jù)科學家應(yīng)該具備更強的匯報和溝通能力。
2. 數(shù)據(jù)科學家的日常工作內(nèi)容包括什么?
我最近在和朋友閑聊時,驚訝的發(fā)現(xiàn)大家的工作內(nèi)容都很相似。主要包括:
2.1. 分析數(shù)據(jù)和建模
此處的工作特指根據(jù)客戶需求,從數(shù)據(jù)中攫取商業(yè)價值,而這個過程中一般都會涉及統(tǒng)計模型(statistical learning)和機器學習模型(machine learning)。如果在數(shù)據(jù)沒有處理的情況下,我們的工作偶爾也涉及清理數(shù)據(jù)。有時候我們反而希望數(shù)據(jù)是未經(jīng)過處理的,因為很多重要信息都在被處理中遺失了。一般的項目遵循以下幾個流程:
確定商業(yè)痛點 – 明白要解決的問題是什么?
獲得數(shù)據(jù)并進行清理,常見的數(shù)據(jù)預(yù)處理包括: a. 缺失值處理 b.特征變量轉(zhuǎn)化 c.特征選擇和維度變化(升維或者降維) d. 標準化/歸一化/稀疏化。涉及文字的時候可能還要使用一些自然語言處理的手段,更多的相關(guān)方法可以看我最近的回答[1]。
模型選擇與評估。這個過程常常是比較粗暴的,往往需要做多個模型進行評估對比。
提取商業(yè)價值,編寫報告或意見書,并向相關(guān)負責人匯報。
2.2. 與團隊其他成員的溝通
與純粹的機器科學工程師不同,數(shù)據(jù)科學家的重要工作內(nèi)容是交流溝通。如果無法了解清楚客戶的需求是什么,可能白忙活一場。如果無法了解數(shù)據(jù)工程師在采集數(shù)據(jù)時的手段,我們使用的原始數(shù)據(jù)可能有統(tǒng)計學偏見。如果不能講清楚如何才能有效的評估模型,負責在云端運行模型的工程師可能給出錯誤的答案。因此,數(shù)據(jù)科學家除了建模必須親手來做以外,其他的環(huán)節(jié)可以“外包”給別人。在數(shù)據(jù)量特別大的時候,這個需求變得更為明顯。
2.3. 開會/匯報/寫報告
良好的溝通能力不僅僅是指和團隊成員的溝通,向老板和客戶的匯報也很考察數(shù)據(jù)科學家的能力。作為一個數(shù)據(jù)科學家,我們一般有幾個原則:
匯報時避免“黑話”,避免給不同背景的老板和客戶造成疑惑。
直擊重點而不炫技。盡量簡明扼要,不要過分介紹模型的內(nèi)部構(gòu)造,重心是得到的結(jié)論。
實事求是不夸大模型能力。很多機器學習模型其實都已經(jīng)不同程度過擬合,不刻意避開交叉驗證而選擇“看似表現(xiàn)良好的”過擬合模型。
給出可以進一步優(yōu)化和提高的方向,為項目提出新的方向。
在匯報時盡量用可視化來代替枯燥的文字。
以我去年做的一個項目為例:
我們公司的領(lǐng)導(dǎo)層希望了解為什么我們的員工離職率很高,如何才可以避免這一點。遵循我上面介紹的流程:
從人事部門收集數(shù)據(jù),清楚的告訴他們我需要的數(shù)據(jù)時間跨度,變量。并和法務(wù)部門一起將數(shù)據(jù)中的隱私部分去除。
進行數(shù)據(jù)預(yù)處理,建模并評估。
從中挖掘商業(yè)價值,如 a. 為什么員工會離職(將變量重要性進行排序,用決策樹可視化分類結(jié)果) b. 什么樣的員工值得留住?
制作報告,并像領(lǐng)導(dǎo)層匯報我的發(fā)現(xiàn),過程設(shè)計可視化等。
和其他部門的同事將這個項目包裝成一個案例,賣給我們的其他客戶。
這個基本包括了數(shù)據(jù)分析項目的基本流程,對于這個項目的一些有趣發(fā)現(xiàn)可以看我的另一個回答[2]。但不難看出,整個流程中有大量的溝通過程,甚至還包括銷售的部分,這在一次體現(xiàn)了數(shù)據(jù)科學家的工作廣度。
3. 對于數(shù)據(jù)科學家的一些感悟
3.1. 不要沉迷于自己的“職位”
數(shù)據(jù)科學家是個聽起來非?!靶愿械摹钡膷徫?,別忘了我們小時候的夢想都是成為一個科學家。但拋開這些虛的東西,我們必須認清這個崗位的核心就是將很多技能封裝到一個人身上。而我們工作的正常開展少不了其他同事的支持和幫助,所以千萬不要看不起別人的工作內(nèi)容。沒有數(shù)據(jù)工程師進行數(shù)據(jù)采集,沒有分析師幫我們美化圖表和提出質(zhì)疑,我們無法得到最好的結(jié)果。
數(shù)據(jù)分析項目一直都是眾人拾柴火焰高,沒有人可以當超人。所以在得到這樣“高薪性感”的職位后,我們更應(yīng)該把心裝回肚子里,腳踏實地。
3.2. 不要盲目迷信算法
承接上一點,雖然我們的工作重點之一是建模,但請不要神話算法,也不要挾算法以令同事,覺得只有自己做的部分才有價值。
簡單來說,可以通過沒有免費的午餐定理(No Free Lunch Theorem -> NFL Theorem)來解釋。NFL由Wolpert在1996年提出,其應(yīng)用領(lǐng)域原本為經(jīng)濟學。和那句家喻戶曉的”天下沒有免費的午餐”有所不同, NFL講的是優(yōu)化模型的評估問題。
在機器學習領(lǐng)域,NFL告訴機器學習從業(yè)者:”假設(shè)所有數(shù)據(jù)的分布可能性相等,當我們用任一分類做法來預(yù)測未觀測到的新數(shù)據(jù)時,對于誤分的預(yù)期是相同的。” 簡而言之,NFL的定律指明,如果我們對要解決的問題一無所知且并假設(shè)其分布完全隨機且平等,那么任何算法的預(yù)期性能都是相似的。這個定理對于“盲目的算法崇拜”有毀滅性的打擊。例如,現(xiàn)在很多人沉迷“深度學習”不可自拔,那是不是深度學習就比其他任何算法都要好?在任何時候表現(xiàn)都更好呢?未必,我們必須要加深對于問題的理解,不能盲目的說某一個算法可以包打天下。
周志華老師在《機器學習》一書中也簡明扼要的總結(jié):“NFL定理最重要的寓意,是讓我們清楚的認識到,脫離具體問題,空泛的談‘什么學習算法更好’毫無意義。”
在這個深度學習就是一切的時代,作為數(shù)據(jù)科學家,我們要有自己的獨立判斷。
3.3. 重視數(shù)據(jù)可視化和模型可解釋度
數(shù)據(jù)科學家作為一個更偏商業(yè)應(yīng)用的崗位,而不是研究崗位,需要重視數(shù)據(jù)可視化的重要性以及模型可解釋度的意義。原因很簡單,如果客戶看不懂我們做的是什么,或者客戶不相信我們做的東西的可靠性,你即使有再酷炫的模型,也只是浪費時間。在大部分中小型的數(shù)據(jù)分析項目中,用深度學習的機會是很有限的。原因包括但不限于:
數(shù)據(jù)量要求很大調(diào)參成本太高且奇淫巧技太多模型可視化即解釋度低而比較常用的機器學習模型是: 廣義線性模型(generalized linear models),如最普通的邏輯回歸;還有以決策樹為基底的模型,如隨機森林和Gradient Boosting Tree等。這兩種模型都有很好的可解釋性,而且都可以得到變量重要性系數(shù)。以Sklearn官方文檔中的簡單的決策樹可視化為例:
而可視化的好處遠不止于此,在數(shù)據(jù)建模初期的可視化可以避免我們走很多彎路。以ISL[3]中附帶的線性回歸為例,我們一眼就可以看出最右邊的圖不像左邊的圖中的數(shù)據(jù)可以通過簡單的線性回歸進行擬合,可以直接跳過線性回歸來節(jié)省時間。
承接上一點,對于一個問題我們通常無法得到所有的相關(guān)變量,這導(dǎo)致了大部分數(shù)據(jù)分析的結(jié)果其實或多或少都有偏見。講個經(jīng)典的統(tǒng)計學笑話,夏天溺水身亡的人數(shù)相比冬天大幅度上升,而夏天吃冰激凌的人數(shù)也上升,所以得到結(jié)論: “吃冰激凌”會導(dǎo)致“溺水”。這種數(shù)據(jù)會說謊的本質(zhì)就在于我們無法獲得所有的隱變量,如夏天去海邊的人數(shù)上升,游泳的人數(shù)上升等。
而在數(shù)據(jù)分析的項目中,大部分謬誤無法像上面這個例子一眼就可以看穿,我們常常會獲得很多看起來很可信但實則大誤的結(jié)論。作為一個數(shù)據(jù)科學家,請在分析時小心在小心,謹慎再謹慎,因為我們的分析結(jié)果往往會直接影響到公司或者客戶的收益。假設(shè)你做人事分析的項目,錯誤的結(jié)論可能導(dǎo)致優(yōu)秀的員工被解雇。
所以萬望大家不要總想搞個大新聞,對于沒有足夠顯著性的結(jié)論請再三檢查,不要言過其實。這是我們的責任,也是義務(wù)。
4. 如何成為一個合格的數(shù)據(jù)科學家?
假設(shè)你已經(jīng)有了基本的從業(yè)資格:即有相關(guān)領(lǐng)域的學位,掌握了數(shù)據(jù)分析和建模的基礎(chǔ)能力,也懂得至少一門的分析語言(R或Python)和基本的數(shù)據(jù)庫知識。下面的這些小建議可以幫助你在這條路上走的更遠。
4.1. 扎實的基本功
像我在另一個機器學習面試回答[4]中提到過的,保證對基本知識的了解(有基本的廣度)是對自己工作的基本尊重。什么程度就算基本了解呢?以數(shù)據(jù)分析為例,我的感受是:
對基本的數(shù)據(jù)處理方法有所了解
對基本的分類器模型有所了解并有所使用(調(diào)包),大概知道什么情況使用什么算法較好
對基本的評估方法有所掌握,知道常見評估方法的優(yōu)劣勢
有基本的編程能力,能夠獨立的完成簡單的數(shù)據(jù)分析項目
有基本的數(shù)據(jù)挖掘能力,可以對模型進行調(diào)參并歸納發(fā)現(xiàn)
至于其他軟實力,暫時按下不表。
4.2. 從實踐中培養(yǎng)分析能力
屠龍之技相信大家都有,我常常聽別人說他已經(jīng)刷完了X門在線課,熟讀了X本經(jīng)典書籍,甚至現(xiàn)代、優(yōu)化、概率統(tǒng)計都又學了一遍,但為什么Kaggle上還是排名靠后或者工作中缺乏方向?
簡單來說,上面提到的這些儲備,甚至包括Kaggle經(jīng)驗,都屬于屠龍之技。數(shù)據(jù)分析領(lǐng)域的陷阱隨處可見,遠不是幾本書幾篇論文就能講得清楚。最好的方法只有從工作中實踐,跟著你的師傅學習怎么分解項目,怎么提取價值。
我記憶很深的一個例子是:有一次我和我的老板為某國家鑄幣中心制定最優(yōu)的紀念幣定價方案,來最大化收益。但根據(jù)客戶給我們的例子,我們的優(yōu)化模型效果很差,誤差極大。我的老板給了我?guī)讉€建議:1. 把回歸問題轉(zhuǎn)為分類問題,犧牲一部分精度 2. 舍棄掉一部分密度很低的數(shù)據(jù),對于高密度區(qū)域根據(jù)密度重建模型 3. 如果不行,對于高密度區(qū)域用有限混合模型(Finite Mixture Model)再做一次。采納了老板的建議,最終我們對于百分之75%的紀念幣做到了最佳的優(yōu)化結(jié)果,為客戶帶來了價值??蛻魧τ谑O?5%無法預(yù)測表示理解,因為他們無法提供更多的市場數(shù)據(jù)。
那個時候的我總覺得不能舍棄數(shù)據(jù),但我的老板用行動告訴我客戶最需要的是獲得價值,而不是完美的模型。而這種感悟,我們只有在實際工作中才能獲得。所以當你作為數(shù)據(jù)科學家開始工作時,請多想想如何產(chǎn)生價值,而不是一味地炫屠龍之技。
4.3. 平衡技術(shù)與溝通能力
數(shù)據(jù)科學家的重要工作內(nèi)容就是匯報和寫報告,因而良好的”講故事”(storytelling)能力非常重要。在學習的過程中,請不要把全部的重心放在技術(shù)能力上。技術(shù)能力可以保證你有東西可以說,但講故事這種軟實力可以保證你的辛苦沒有白費,你的能力獲得大家的認可。同時,這種溝通能力也可以讓你在社交中更加如魚得水,一改理工科給人留下的沉悶的印象。輕溝通,重技術(shù),是一種工程師思維,但這并不適用于數(shù)據(jù)科學家。
最后想不恰當?shù)囊靡痪湮鞣街V語:“欲戴王冠,必承其重?!痹谶@個數(shù)據(jù)為王的時代里面,成為優(yōu)秀的數(shù)據(jù)科學家不僅僅代表著高薪,還代表著我們對于這個時代的貢獻與價值。然而道路阻且長,還有太多太多需要我們學習和完善的方向。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 被聯(lián)想海外起訴專利侵權(quán) 中興通訊回應(yīng)
- “數(shù)據(jù)要素×”大賽圓滿落幕,啟信寶在金融服務(wù)賽道斬獲佳績
- JetBrains 面向非商業(yè)用途免費提供 WebStorm 和 Rider
- IDC:2024年邊緣計算支出將達到2280億美元
- 聯(lián)想集團任命前戴爾高管擔任基礎(chǔ)設(shè)施方案集團新總裁
- 報告稱上半年IT安全軟件市場規(guī)模112.5億元,同比增長4.1%
- 報告稱中國邊緣服務(wù)器市場量價齊漲 2028年將達108億美元
- Gartner數(shù)字化轉(zhuǎn)型調(diào)查:52%的企業(yè)未能實現(xiàn)預(yù)期目標
- 驅(qū)動未來:數(shù)據(jù)中心能源的變革與創(chuàng)新
- 數(shù)據(jù)中心如何扭轉(zhuǎn)碳排放趨勢
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。