在如今的數(shù)據(jù)智能時代,幾乎所有人都相信“數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼你只能看到冰山一角,而絕大部分則隱藏在表面之下。”當數(shù)據(jù)的價值依然在冰山之下隱藏,外面的世界便彌漫著對數(shù)據(jù)的渴望。
一些新的職業(yè)成為數(shù)據(jù)海洋里的新星,“數(shù)據(jù)科學家”無疑是最亮的之一,它被譽為21世紀最性感的職業(yè),但是近年來隨著平民數(shù)據(jù)科學家的發(fā)展,有人指出數(shù)據(jù)科學家將要消失,也有國外相關人士建議不要去選數(shù)據(jù)科學家這個職業(yè),數(shù)據(jù)科學家還是21世紀最性感的職業(yè)嗎?
數(shù)據(jù)科學五十年仍是少年
數(shù)據(jù)科學家泛指數(shù)據(jù)科學的從業(yè)者,追溯數(shù)據(jù)科學家的源頭可以到數(shù)據(jù)科學誕生的1966年,當時Peter Naur提出"數(shù)據(jù)科學"(“DataScience”起初叫"datalogy "),用來代替"計算機科學"。1996年,International Federation of Classification Societies (IFCS)國際會議召開。數(shù)據(jù)科學一詞首次出現(xiàn)在會議(Data Science, classification, and related methods)標題里。
在2000年代中期數(shù)據(jù)科學家職位開始出現(xiàn),2009年Natahn Yau指出數(shù)據(jù)科學家是是采用科學方法、運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察的工程師,數(shù)據(jù)科學家集技術專家與數(shù)量分析師的角色于一身。
實際上大數(shù)據(jù)和數(shù)據(jù)科學在內(nèi)的整個數(shù)據(jù)行業(yè)最初都是由Google、Facebook、Twitter等互聯(lián)網(wǎng)巨頭驅(qū)動,現(xiàn)在仍然如此。總部位于歐洲的JetBrains是國際知名軟件開發(fā)工具提供商,其產(chǎn)品經(jīng)理Andrey Cheptsov認為互聯(lián)網(wǎng)巨頭能夠推動數(shù)據(jù)行業(yè)的發(fā)展首先有所需求、并有能力進行大規(guī)模有效處理數(shù)據(jù),其主要業(yè)務模型從核心上取決于自身處理大規(guī)模數(shù)據(jù)的效率。
隨著大數(shù)據(jù)行業(yè)的發(fā)展,數(shù)據(jù)科學家成為了職場新星,更是被財富雜志譽為21世紀最性感的職業(yè)。但是數(shù)據(jù)科學家在初期成長也并非一帆風順,根據(jù)商業(yè)智能公司SiSense在2012 年左右的一項報告,在接受調(diào)查的全球400位數(shù)據(jù)科學家和數(shù)據(jù)分析人士中,59%的數(shù)據(jù)科學家在從業(yè)六年后都另謀高就。盡管該職業(yè)的報酬豐厚,其中超過半數(shù)表示對職業(yè)安全性的擔憂。
彼時麥肯錫等咨詢公司力挺數(shù)據(jù)科學家,堅信數(shù)據(jù)科學家是當今和未來稀缺的資源。隨著智能手機的普及移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)價值越發(fā)凸顯,數(shù)據(jù)科學家水漲船高。LinkedIn 發(fā)布的《2017 年美國新興工作崗位報告》中指出,“自 2012 年以來,數(shù)據(jù)科學家的職位增長了 650% 以上”且“數(shù)百家企業(yè)都在招聘這些職位”。
國內(nèi)近幾年也有互聯(lián)網(wǎng)公司近幾年開始逐步設立獨立的數(shù)據(jù)科學(DataScience)團隊,推動公司向數(shù)據(jù)驅(qū)動發(fā)展。進入21世紀20年代,數(shù)據(jù)科學家成為更稀缺的資源,很多人也依然相信它還是21世紀最性感的職業(yè)。
不過榮譽傍身的新星也有“暗淡”的一面,2017年有研究指出數(shù)據(jù)科學家成為離職率最高的職位之一,通常他們每周都會花費一定的時間尋找新工作。日前仍然有數(shù)據(jù)科學家從業(yè)者勸諫后來者不要入坑,可謂是冰火兩重天,何以至此?
數(shù)據(jù)科學五十年依舊是少年模樣,就如同“AI”這個名詞在1956年出現(xiàn)到如今60多年才有初步落地,數(shù)據(jù)科學是一個綜合性的學科,國內(nèi)外很多從業(yè)者認為數(shù)據(jù)科學依然是探索性的工作,管理層對 “數(shù)據(jù)科學” 的含義往往沒有達成共識。
雖然已經(jīng)經(jīng)過至少10多年的發(fā)展,現(xiàn)在可能受限于業(yè)務,沒有辦法生搬硬套一個角色框架給數(shù)據(jù)科學家,企業(yè)也容易將數(shù)據(jù)科學家和數(shù)據(jù)工程師混淆。JetBrains產(chǎn)品經(jīng)理Maria Khalusova認為“數(shù)據(jù)科學家”和“數(shù)據(jù)工程師”這兩種職位角色在行業(yè)中還是相當新的,也正因此,通常沒有明確的職責劃分?!拔覀兛吹皆谀承┕局杏蓴?shù)據(jù)科學家承擔的職責,在其他公司中這些職責卻由數(shù)據(jù)工程師承擔。另一個越來越常見的新角色是機器學習工程師,但也是同樣的情況,他們也經(jīng)常與數(shù)據(jù)工程師發(fā)生重疊?!盡aria Khalusova在接受IT168采訪時指出。
數(shù)據(jù)科學家VS數(shù)據(jù)工程師
新的技術融入產(chǎn)業(yè)和社會必然會帶來一場職業(yè)的辭舊迎新,這個過程并沒有那么快速。
“從技術角度來看,數(shù)據(jù)科學在某些情況下的實踐似乎還不如傳統(tǒng)軟件開發(fā)成熟。企業(yè)可能會面臨以下挑戰(zhàn):建立可重現(xiàn)的機器學習管道,對數(shù)據(jù)和模型進行版本控制以進行審核,與快速發(fā)展的技術保持同步?!盡aria Khalusova指出。
數(shù)據(jù)科學家和數(shù)據(jù)工程師的角色兩者有許多共同的特點和共技能。這些重疊的技能包括處理和操作大數(shù)據(jù)集、應用數(shù)據(jù)的編程技能、數(shù)據(jù)分析技能以及對系統(tǒng)操作的總體熟練程度。不過兩者還是有很大的不同。在筆者之前翻譯的文章中也強調(diào)了數(shù)據(jù)科學家和數(shù)據(jù)工程師不可能合二為一,為了從數(shù)據(jù)中獲得價值,大多數(shù)企業(yè)組織都需要數(shù)據(jù)科學和數(shù)據(jù)工程,由于相關技能有很大差異,二者合體也不太現(xiàn)實。企業(yè)組織可能需要多個數(shù)據(jù)科學家和數(shù)據(jù)工程師,但兩者之間的比例很少是1:1。對于大多數(shù)企業(yè)組織來說,擁有更多的數(shù)據(jù)工程師比數(shù)據(jù)科學家更有意義。因為數(shù)據(jù)科學家已經(jīng)學會處理大量的干凈數(shù)據(jù),但是從許多不同系統(tǒng)獲得大量的干凈數(shù)據(jù)更難也更具挑戰(zhàn)。與抽象數(shù)據(jù)模型和對數(shù)據(jù)集運行分析相比,移動和清理數(shù)據(jù)的工作量更大。
從技能需求方面也有很大的差異,Maria Khalusova認為,廣義上來講,數(shù)據(jù)工程師通常必須熟悉那些為分布式數(shù)據(jù)處理而設計的工具,例如Apache Spark、Apache Hadoop、Apache Ignite等。他們要具備數(shù)據(jù)倉庫和數(shù)據(jù)湖方面的經(jīng)驗,因為他們需要能夠熟練地使用Java、Scala和Kotlin等JVM語言,并且必須能夠創(chuàng)建和維護大多數(shù)數(shù)據(jù)基礎架構。
12下一頁>(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )