數(shù)據(jù)服務(wù):AI領(lǐng)域的“菊與刀” ——企業(yè)破解數(shù)據(jù)服務(wù)行業(yè)“約拿情結(jié)”的探索

“菊與刀”這個詞在誕生之初是指日本民族性格的雙重性及矛盾性,“菊”是日本皇室家徽,象征高尚與優(yōu)雅;“刀”是武士道文化的象征,代表暴力。在文化發(fā)展的過程中,人們常用“菊與刀”來指代同一件事物上表現(xiàn)出來的截然相反的兩種現(xiàn)象。這類情境在全球范圍內(nèi)廣泛存在,AI產(chǎn)業(yè)和服務(wù)于它的數(shù)據(jù)行業(yè),正鮮明體現(xiàn)出高技術(shù)與高密度勞動力的兩重性特征。

從1956年人工智能學(xué)科被正式提出開始,到 2016年3月,谷歌AlphaGo 4:1 戰(zhàn)勝圍棋世界冠軍李世石,開啟人工智能的新紀元,AI產(chǎn)業(yè)在經(jīng)歷了60多年醞釀后終于順勢而起,達到了目前的爆發(fā)期,成為一門廣泛的交叉和前沿科學(xué)。2017年人工智能領(lǐng)域投資金額僅中國便超過580億人民幣,同比增長50%,預(yù)計到2020年,中國人工智能核心產(chǎn)業(yè)規(guī)模將超過1600億元,年復(fù)合增長率將達43.6%。

與強勁的發(fā)展勢頭和旺盛的行業(yè)需求相對應(yīng)的,是巨大的數(shù)據(jù)缺口。一些業(yè)內(nèi)專家認為,當前AI的發(fā)展現(xiàn)狀僅相當于“互聯(lián)網(wǎng)在上世紀90年代初期的階段”,主要方法論仍是基于大數(shù)據(jù)、大計算模式,需要海量數(shù)據(jù)去“喂養(yǎng)”。也就是說,人工智能并不會像人類那樣推斷出結(jié)論,它要進行不斷地試驗和錯誤學(xué)習(xí),這就需要大量的數(shù)據(jù)來教授和培訓(xùn)。人工智能應(yīng)用的數(shù)據(jù)越多,獲得的結(jié)果就越準確。毫無疑問,沒有大數(shù)據(jù)就沒有人工智能。

李開復(fù)稱得上是中國AI產(chǎn)業(yè)的引航員,在與搜狗CTO楊洪濤、今日頭條技術(shù)戰(zhàn)略研究院院長張宏江的對談中他曾表示——最好的數(shù)據(jù)就是最多的數(shù)據(jù)。他在富士康實體經(jīng)濟與數(shù)字經(jīng)濟融合發(fā)展高峰論壇上曾經(jīng)說道:“今天,聽到專家談到大數(shù)據(jù)對AI的重要性,大數(shù)據(jù)會讓中國成為AI大國。什么算法、什么專家都不重要。只要數(shù)據(jù)大,最后一定勝出。因為,現(xiàn)在AI已經(jīng)足夠普及,不是一定要看世界三巨頭來做AI顧問才可以,現(xiàn)在AI已經(jīng)接近平臺化。”“過去,以專家為王?,F(xiàn)在,以數(shù)據(jù)為王。”

相對技術(shù)要求、人才素質(zhì)要求都非常高的AI算法、程序與產(chǎn)品,數(shù)據(jù)服務(wù)業(yè)卻呈現(xiàn)出了另一種場面。據(jù)業(yè)內(nèi)人士估計,中國全職的“數(shù)據(jù)標注者”已達到10萬人,兼職人群的規(guī)模則接近100萬。標注工作本身是一個勞動密集型工種,收入不高,與所服務(wù)的AI行業(yè)形成了鮮明對比。一邊是炫酷的科技、神奇的智能應(yīng)用;一邊是大量人工每天重復(fù)地生產(chǎn)機器學(xué)習(xí)的“食物”——標注好的數(shù)據(jù),AI產(chǎn)業(yè)和服務(wù)于它的數(shù)據(jù)行業(yè)正是“菊與刀”的翻版——在矛盾中成長,也在矛盾中變革。

龍貓科技、數(shù)據(jù)堂、星塵數(shù)據(jù)……目前的數(shù)據(jù)采集標注行業(yè)里除了專業(yè)玩家,更有百度眾測、京東眾智、阿里眾包、科大訊飛、曠視科技等巨頭入局,除了滿足自身發(fā)展所需的數(shù)據(jù)需求,也在對外產(chǎn)出數(shù)據(jù),據(jù)不完全統(tǒng)計,像瑪達科技、魔門塔、愛數(shù)智慧、海天瑞聲、思必馳、泛函科技、標貝科技等提供數(shù)據(jù)服務(wù)的公司或大型團隊已超百家,而他們的采集標注項目,則大多采用了目前數(shù)據(jù)采集標注行業(yè)的主流模式——“外包”。

貴陽夢動科技經(jīng)營了一個500人的“數(shù)據(jù)工場”;BasicFinder與二十多家“數(shù)據(jù)工廠”有長期業(yè)務(wù)合作,少則幾十人,多則兩三百人。而在規(guī)范的機構(gòu)之外,還游離著三五人到十幾人規(guī)模不等的“小作坊”。大公司集中精力研發(fā)或保持團隊的高學(xué)歷占比,很少完全自建數(shù)據(jù)標注團隊,這也為數(shù)據(jù)外包提供了豐沃的土壤。

AI數(shù)據(jù)采集標注的外包市場2011年開啟,2015年真正開始,2016年下半年出現(xiàn)收縮,2017年開始新一輪的爆發(fā)。外包盛行,是因為人工智能的發(fā)展需要大量人力提供不同基礎(chǔ)數(shù)據(jù),對非結(jié)構(gòu)的數(shù)據(jù)進行加工,以用于機器學(xué)習(xí)。很多公司采用互聯(lián)網(wǎng)思維,使用網(wǎng)站和app采集眾多數(shù)據(jù),但面對巨量的數(shù)據(jù)需求、超短的任務(wù)工期和激烈的行業(yè)競爭,短時間內(nèi)很難保證完成任務(wù),于是,采集標注的外包團隊應(yīng)運而生,并在短短兩年多的時間里呈現(xiàn)井噴式增長。

外包行業(yè)的急速擴張,從側(cè)面發(fā)映出AI產(chǎn)業(yè)的欣欣向榮,更反映出對數(shù)據(jù)采集標注從業(yè)人員技能素質(zhì)的低門檻低要求,數(shù)據(jù)采集和標注除了專業(yè)技術(shù)公司提供平臺和技術(shù)支持、質(zhì)量把控,絕大部分工作還是由提供基礎(chǔ)數(shù)據(jù)和重復(fù)大量勞動的普通勞動者提供。

人工智能公司的總支出中,目前有20%-30%用于數(shù)據(jù),按此比例,現(xiàn)階段大陸市場數(shù)據(jù)采集及標注的規(guī)模保守估計有五十億,行業(yè)內(nèi)新三板上市公司數(shù)據(jù)堂2016年的營收便達到9680萬元人民幣。而目前現(xiàn)狀是,能被建模量化的數(shù)據(jù)只占真實世界中的極少一部分,隨著AI深入更多垂直行業(yè),新需求不斷出現(xiàn),完成需求需要的不僅是更多的數(shù)據(jù),也是是更高素質(zhì)、更快速度的采集、標注團隊??梢哉f,隨著人工智能行業(yè)本身的發(fā)展,數(shù)據(jù)采集標注工作對從業(yè)者的要求只會越來越高。

但這一切都是基于“有監(jiān)督學(xué)習(xí)”這個大前提。行業(yè)的一個變量是,如果算法從“有監(jiān)督學(xué)習(xí)”升級為“無監(jiān)督學(xué)習(xí)”、強化學(xué)習(xí)或遷移學(xué)習(xí),數(shù)據(jù)采集標注需求將大大減少,雖然目前無監(jiān)督學(xué)習(xí)等新算法仍然只是學(xué)界的探索,尚不能用在大規(guī)模的商業(yè)落地中,但隨著對抗學(xué)習(xí)訓(xùn)練等算法的升級發(fā)展,以極少的數(shù)據(jù)滿足人工智能的需求也并不是不可能實現(xiàn)。

這便是數(shù)據(jù)服務(wù)行業(yè)的“約拿情結(jié)”——最大的恐懼來源于對自身成長的恐懼。

互聯(lián)網(wǎng)巨頭涉足AI數(shù)據(jù)服務(wù)行業(yè)沒有太多后顧之憂,但是以數(shù)據(jù)服務(wù)為主營業(yè)務(wù)的公司卻不得不考慮發(fā)展的局限與危機。面對未來潛在的風(fēng)險,誰能在風(fēng)險來臨之前合理謀劃,妥善布局,誰就能在風(fēng)險到來時站穩(wěn)腳跟,迎風(fēng)起飛。

李開復(fù)曾說,建立數(shù)據(jù)共享平臺,把AI人才的池子做大,對AI行業(yè)來說是一件水漲船高的事情。而基于目前的商業(yè)模式,想要突破發(fā)展的桎梏,無疑需要突破模式,找準方向,做行業(yè)發(fā)展的引領(lǐng)者。

比如提供數(shù)據(jù)交易平臺的找標注網(wǎng),基于現(xiàn)在B2B行業(yè)模式弊端,他們創(chuàng)建了供需擬合平臺,允許數(shù)據(jù)服務(wù)提供方和需求方在網(wǎng)站發(fā)布任務(wù),尋找機會,從而帶動合作,實現(xiàn)共贏。本質(zhì)上講,其所提供的是類似于淘寶一樣的服務(wù)平臺,優(yōu)點是可以實現(xiàn)資源展示,快速匹配供需,缺點是缺乏認證,無法保證產(chǎn)出質(zhì)量。

而標榜大數(shù)據(jù)第一股的數(shù)據(jù)堂,則采用了建立數(shù)據(jù)商城的方式進行深度發(fā)展。數(shù)據(jù)需求方可以在網(wǎng)站上很清楚看到所需要的數(shù)據(jù)內(nèi)容和價格,甚至不需要提出需求便可以買到所需的數(shù)據(jù)。但實現(xiàn)了便利性的同時,也帶來一系列問題。一是不同需求方對數(shù)據(jù)需求很難完全相同,即使同樣是做人臉識別,標注的點位數(shù)都很難統(tǒng)一,所以數(shù)據(jù)商城提供的數(shù)據(jù)價值也就大打折扣。其次,很少有數(shù)據(jù)企業(yè)愿意把自己的數(shù)據(jù)分享出來,所以數(shù)據(jù)的來源只能是少數(shù)不愿意支付數(shù)據(jù)買斷費的公司,發(fā)展規(guī)模受限較大。本質(zhì)上講,其采取的方式只是對現(xiàn)有服務(wù)的簡化,沒有本質(zhì)上的發(fā)展與變革。

再有就是龍貓數(shù)據(jù)所采取的方式。龍貓數(shù)據(jù)隸屬于北京安捷智合科技有限公司,其核心業(yè)務(wù)是為 AI 及大數(shù)據(jù)領(lǐng)域公司提供數(shù)據(jù)采集、標注等定制化數(shù)據(jù)解決方案,服務(wù)領(lǐng)域涵蓋圖像、語音、文本、視頻方面。龍貓數(shù)據(jù)的產(chǎn)品包括移動端APP、PC端標注網(wǎng)站,用戶量達到五百萬,可承擔(dān)千萬人以上樣本量,合作方包括百度、小米、京東、曠視等二百多家企業(yè)。

龍貓數(shù)據(jù)借助其巨量的數(shù)據(jù)基礎(chǔ)和豐富的服務(wù)經(jīng)驗,采取了建立龍貓數(shù)據(jù)平臺的方案,通過為合作伙伴提供算力和數(shù)據(jù),讓他們只通過提供算法便可以得到想要的結(jié)果。利用自身數(shù)據(jù)采取數(shù)據(jù)+平臺的方式,允許企業(yè)自己建立模塊,其本質(zhì)是對服務(wù)線的延伸,優(yōu)勢在于打通AI上下游,給客戶最大便利的同時降低客戶投入,提升產(chǎn)出效率。這種向上下游延展的做法在傳統(tǒng)行業(yè)屢見不鮮,但在數(shù)據(jù)服務(wù)行業(yè)尚屬首次。在日新月異的AI行業(yè)究竟能不能行得通,還要靠時間來檢驗。

AI產(chǎn)業(yè)的發(fā)展離不開數(shù)據(jù)行業(yè)的支持,我們也期待數(shù)據(jù)行業(yè)能夠越來越完善,賦能AI,鑄夢未來。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-11-08
數(shù)據(jù)服務(wù):AI領(lǐng)域的“菊與刀” ——企業(yè)破解數(shù)據(jù)服務(wù)行業(yè)“約拿情結(jié)”的探索
“菊與刀”這個詞在誕生之初是指日本民族性格的雙重性及矛盾性,“菊”是日本皇室家徽,象征高尚與優(yōu)雅;“

長按掃碼 閱讀全文