數(shù)據(jù)服務(wù):AI領(lǐng)域的“菊與刀” ——企業(yè)破解數(shù)據(jù)服務(wù)行業(yè)“約拿情結(jié)”的探索

“菊與刀”這個(gè)詞在誕生之初是指日本民族性格的雙重性及矛盾性,“菊”是日本皇室家徽,象征高尚與優(yōu)雅;“刀”是武士道文化的象征,代表暴力。在文化發(fā)展的過(guò)程中,人們常用“菊與刀”來(lái)指代同一件事物上表現(xiàn)出來(lái)的截然相反的兩種現(xiàn)象。這類(lèi)情境在全球范圍內(nèi)廣泛存在,AI產(chǎn)業(yè)和服務(wù)于它的數(shù)據(jù)行業(yè),正鮮明體現(xiàn)出高技術(shù)與高密度勞動(dòng)力的兩重性特征。

從1956年人工智能學(xué)科被正式提出開(kāi)始,到 2016年3月,谷歌AlphaGo 4:1 戰(zhàn)勝?lài)迨澜绻谲娎钍朗?,開(kāi)啟人工智能的新紀(jì)元,AI產(chǎn)業(yè)在經(jīng)歷了60多年醞釀后終于順勢(shì)而起,達(dá)到了目前的爆發(fā)期,成為一門(mén)廣泛的交叉和前沿科學(xué)。2017年人工智能領(lǐng)域投資金額僅中國(guó)便超過(guò)580億人民幣,同比增長(zhǎng)50%,預(yù)計(jì)到2020年,中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模將超過(guò)1600億元,年復(fù)合增長(zhǎng)率將達(dá)43.6%。

與強(qiáng)勁的發(fā)展勢(shì)頭和旺盛的行業(yè)需求相對(duì)應(yīng)的,是巨大的數(shù)據(jù)缺口。一些業(yè)內(nèi)專(zhuān)家認(rèn)為,當(dāng)前AI的發(fā)展現(xiàn)狀僅相當(dāng)于“互聯(lián)網(wǎng)在上世紀(jì)90年代初期的階段”,主要方法論仍是基于大數(shù)據(jù)、大計(jì)算模式,需要海量數(shù)據(jù)去“喂養(yǎng)”。也就是說(shuō),人工智能并不會(huì)像人類(lèi)那樣推斷出結(jié)論,它要進(jìn)行不斷地試驗(yàn)和錯(cuò)誤學(xué)習(xí),這就需要大量的數(shù)據(jù)來(lái)教授和培訓(xùn)。人工智能應(yīng)用的數(shù)據(jù)越多,獲得的結(jié)果就越準(zhǔn)確。毫無(wú)疑問(wèn),沒(méi)有大數(shù)據(jù)就沒(méi)有人工智能

李開(kāi)復(fù)稱(chēng)得上是中國(guó)AI產(chǎn)業(yè)的引航員,在與搜狗CTO楊洪濤、今日頭條技術(shù)戰(zhàn)略研究院院長(zhǎng)張宏江的對(duì)談中他曾表示——最好的數(shù)據(jù)就是最多的數(shù)據(jù)。他在富士康實(shí)體經(jīng)濟(jì)與數(shù)字經(jīng)濟(jì)融合發(fā)展高峰論壇上曾經(jīng)說(shuō)道:“今天,聽(tīng)到專(zhuān)家談到大數(shù)據(jù)對(duì)AI的重要性,大數(shù)據(jù)會(huì)讓中國(guó)成為AI大國(guó)。什么算法、什么專(zhuān)家都不重要。只要數(shù)據(jù)大,最后一定勝出。因?yàn)?,現(xiàn)在AI已經(jīng)足夠普及,不是一定要看世界三巨頭來(lái)做AI顧問(wèn)才可以,現(xiàn)在AI已經(jīng)接近平臺(tái)化。”“過(guò)去,以專(zhuān)家為王?,F(xiàn)在,以數(shù)據(jù)為王。”

相對(duì)技術(shù)要求、人才素質(zhì)要求都非常高的AI算法、程序與產(chǎn)品,數(shù)據(jù)服務(wù)業(yè)卻呈現(xiàn)出了另一種場(chǎng)面。據(jù)業(yè)內(nèi)人士估計(jì),中國(guó)全職的“數(shù)據(jù)標(biāo)注者”已達(dá)到10萬(wàn)人,兼職人群的規(guī)模則接近100萬(wàn)。標(biāo)注工作本身是一個(gè)勞動(dòng)密集型工種,收入不高,與所服務(wù)的AI行業(yè)形成了鮮明對(duì)比。一邊是炫酷的科技、神奇的智能應(yīng)用;一邊是大量人工每天重復(fù)地生產(chǎn)機(jī)器學(xué)習(xí)的“食物”——標(biāo)注好的數(shù)據(jù),AI產(chǎn)業(yè)和服務(wù)于它的數(shù)據(jù)行業(yè)正是“菊與刀”的翻版——在矛盾中成長(zhǎng),也在矛盾中變革。

龍貓科技、數(shù)據(jù)堂、星塵數(shù)據(jù)……目前的數(shù)據(jù)采集標(biāo)注行業(yè)里除了專(zhuān)業(yè)玩家,更有百度眾測(cè)、京東眾智、阿里眾包、科大訊飛、曠視科技等巨頭入局,除了滿(mǎn)足自身發(fā)展所需的數(shù)據(jù)需求,也在對(duì)外產(chǎn)出數(shù)據(jù),據(jù)不完全統(tǒng)計(jì),像瑪達(dá)科技、魔門(mén)塔、愛(ài)數(shù)智慧、海天瑞聲、思必馳、泛函科技、標(biāo)貝科技等提供數(shù)據(jù)服務(wù)的公司或大型團(tuán)隊(duì)已超百家,而他們的采集標(biāo)注項(xiàng)目,則大多采用了目前數(shù)據(jù)采集標(biāo)注行業(yè)的主流模式——“外包”。

貴陽(yáng)夢(mèng)動(dòng)科技經(jīng)營(yíng)了一個(gè)500人的“數(shù)據(jù)工場(chǎng)”;BasicFinder與二十多家“數(shù)據(jù)工廠”有長(zhǎng)期業(yè)務(wù)合作,少則幾十人,多則兩三百人。而在規(guī)范的機(jī)構(gòu)之外,還游離著三五人到十幾人規(guī)模不等的“小作坊”。大公司集中精力研發(fā)或保持團(tuán)隊(duì)的高學(xué)歷占比,很少完全自建數(shù)據(jù)標(biāo)注團(tuán)隊(duì),這也為數(shù)據(jù)外包提供了豐沃的土壤。

AI數(shù)據(jù)采集標(biāo)注的外包市場(chǎng)2011年開(kāi)啟,2015年真正開(kāi)始,2016年下半年出現(xiàn)收縮,2017年開(kāi)始新一輪的爆發(fā)。外包盛行,是因?yàn)槿斯ぶ悄艿陌l(fā)展需要大量人力提供不同基礎(chǔ)數(shù)據(jù),對(duì)非結(jié)構(gòu)的數(shù)據(jù)進(jìn)行加工,以用于機(jī)器學(xué)習(xí)。很多公司采用互聯(lián)網(wǎng)思維,使用網(wǎng)站和app采集眾多數(shù)據(jù),但面對(duì)巨量的數(shù)據(jù)需求、超短的任務(wù)工期和激烈的行業(yè)競(jìng)爭(zhēng),短時(shí)間內(nèi)很難保證完成任務(wù),于是,采集標(biāo)注的外包團(tuán)隊(duì)?wèi)?yīng)運(yùn)而生,并在短短兩年多的時(shí)間里呈現(xiàn)井噴式增長(zhǎng)。

外包行業(yè)的急速擴(kuò)張,從側(cè)面發(fā)映出AI產(chǎn)業(yè)的欣欣向榮,更反映出對(duì)數(shù)據(jù)采集標(biāo)注從業(yè)人員技能素質(zhì)的低門(mén)檻低要求,數(shù)據(jù)采集和標(biāo)注除了專(zhuān)業(yè)技術(shù)公司提供平臺(tái)和技術(shù)支持、質(zhì)量把控,絕大部分工作還是由提供基礎(chǔ)數(shù)據(jù)和重復(fù)大量勞動(dòng)的普通勞動(dòng)者提供。

人工智能公司的總支出中,目前有20%-30%用于數(shù)據(jù),按此比例,現(xiàn)階段大陸市場(chǎng)數(shù)據(jù)采集及標(biāo)注的規(guī)模保守估計(jì)有五十億,行業(yè)內(nèi)新三板上市公司數(shù)據(jù)堂2016年的營(yíng)收便達(dá)到9680萬(wàn)元人民幣。而目前現(xiàn)狀是,能被建模量化的數(shù)據(jù)只占真實(shí)世界中的極少一部分,隨著AI深入更多垂直行業(yè),新需求不斷出現(xiàn),完成需求需要的不僅是更多的數(shù)據(jù),也是是更高素質(zhì)、更快速度的采集、標(biāo)注團(tuán)隊(duì)。可以說(shuō),隨著人工智能行業(yè)本身的發(fā)展,數(shù)據(jù)采集標(biāo)注工作對(duì)從業(yè)者的要求只會(huì)越來(lái)越高。

但這一切都是基于“有監(jiān)督學(xué)習(xí)”這個(gè)大前提。行業(yè)的一個(gè)變量是,如果算法從“有監(jiān)督學(xué)習(xí)”升級(jí)為“無(wú)監(jiān)督學(xué)習(xí)”、強(qiáng)化學(xué)習(xí)或遷移學(xué)習(xí),數(shù)據(jù)采集標(biāo)注需求將大大減少,雖然目前無(wú)監(jiān)督學(xué)習(xí)等新算法仍然只是學(xué)界的探索,尚不能用在大規(guī)模的商業(yè)落地中,但隨著對(duì)抗學(xué)習(xí)訓(xùn)練等算法的升級(jí)發(fā)展,以極少的數(shù)據(jù)滿(mǎn)足人工智能的需求也并不是不可能實(shí)現(xiàn)。

這便是數(shù)據(jù)服務(wù)行業(yè)的“約拿情結(jié)”——最大的恐懼來(lái)源于對(duì)自身成長(zhǎng)的恐懼。

互聯(lián)網(wǎng)巨頭涉足AI數(shù)據(jù)服務(wù)行業(yè)沒(méi)有太多后顧之憂(yōu),但是以數(shù)據(jù)服務(wù)為主營(yíng)業(yè)務(wù)的公司卻不得不考慮發(fā)展的局限與危機(jī)。面對(duì)未來(lái)潛在的風(fēng)險(xiǎn),誰(shuí)能在風(fēng)險(xiǎn)來(lái)臨之前合理謀劃,妥善布局,誰(shuí)就能在風(fēng)險(xiǎn)到來(lái)時(shí)站穩(wěn)腳跟,迎風(fēng)起飛。

李開(kāi)復(fù)曾說(shuō),建立數(shù)據(jù)共享平臺(tái),把AI人才的池子做大,對(duì)AI行業(yè)來(lái)說(shuō)是一件水漲船高的事情。而基于目前的商業(yè)模式,想要突破發(fā)展的桎梏,無(wú)疑需要突破模式,找準(zhǔn)方向,做行業(yè)發(fā)展的引領(lǐng)者。

比如提供數(shù)據(jù)交易平臺(tái)的找標(biāo)注網(wǎng),基于現(xiàn)在B2B行業(yè)模式弊端,他們創(chuàng)建了供需擬合平臺(tái),允許數(shù)據(jù)服務(wù)提供方和需求方在網(wǎng)站發(fā)布任務(wù),尋找機(jī)會(huì),從而帶動(dòng)合作,實(shí)現(xiàn)共贏。本質(zhì)上講,其所提供的是類(lèi)似于淘寶一樣的服務(wù)平臺(tái),優(yōu)點(diǎn)是可以實(shí)現(xiàn)資源展示,快速匹配供需,缺點(diǎn)是缺乏認(rèn)證,無(wú)法保證產(chǎn)出質(zhì)量。

而標(biāo)榜大數(shù)據(jù)第一股的數(shù)據(jù)堂,則采用了建立數(shù)據(jù)商城的方式進(jìn)行深度發(fā)展。數(shù)據(jù)需求方可以在網(wǎng)站上很清楚看到所需要的數(shù)據(jù)內(nèi)容和價(jià)格,甚至不需要提出需求便可以買(mǎi)到所需的數(shù)據(jù)。但實(shí)現(xiàn)了便利性的同時(shí),也帶來(lái)一系列問(wèn)題。一是不同需求方對(duì)數(shù)據(jù)需求很難完全相同,即使同樣是做人臉識(shí)別,標(biāo)注的點(diǎn)位數(shù)都很難統(tǒng)一,所以數(shù)據(jù)商城提供的數(shù)據(jù)價(jià)值也就大打折扣。其次,很少有數(shù)據(jù)企業(yè)愿意把自己的數(shù)據(jù)分享出來(lái),所以數(shù)據(jù)的來(lái)源只能是少數(shù)不愿意支付數(shù)據(jù)買(mǎi)斷費(fèi)的公司,發(fā)展規(guī)模受限較大。本質(zhì)上講,其采取的方式只是對(duì)現(xiàn)有服務(wù)的簡(jiǎn)化,沒(méi)有本質(zhì)上的發(fā)展與變革。

再有就是龍貓數(shù)據(jù)所采取的方式。龍貓數(shù)據(jù)隸屬于北京安捷智合科技有限公司,其核心業(yè)務(wù)是為 AI 及大數(shù)據(jù)領(lǐng)域公司提供數(shù)據(jù)采集、標(biāo)注等定制化數(shù)據(jù)解決方案,服務(wù)領(lǐng)域涵蓋圖像、語(yǔ)音、文本、視頻方面。龍貓數(shù)據(jù)的產(chǎn)品包括移動(dòng)端APP、PC端標(biāo)注網(wǎng)站,用戶(hù)量達(dá)到五百萬(wàn),可承擔(dān)千萬(wàn)人以上樣本量,合作方包括百度、小米、京東、曠視等二百多家企業(yè)。

龍貓數(shù)據(jù)借助其巨量的數(shù)據(jù)基礎(chǔ)和豐富的服務(wù)經(jīng)驗(yàn),采取了建立龍貓數(shù)據(jù)平臺(tái)的方案,通過(guò)為合作伙伴提供算力和數(shù)據(jù),讓他們只通過(guò)提供算法便可以得到想要的結(jié)果。利用自身數(shù)據(jù)采取數(shù)據(jù)+平臺(tái)的方式,允許企業(yè)自己建立模塊,其本質(zhì)是對(duì)服務(wù)線(xiàn)的延伸,優(yōu)勢(shì)在于打通AI上下游,給客戶(hù)最大便利的同時(shí)降低客戶(hù)投入,提升產(chǎn)出效率。這種向上下游延展的做法在傳統(tǒng)行業(yè)屢見(jiàn)不鮮,但在數(shù)據(jù)服務(wù)行業(yè)尚屬首次。在日新月異的AI行業(yè)究竟能不能行得通,還要靠時(shí)間來(lái)檢驗(yàn)。

AI產(chǎn)業(yè)的發(fā)展離不開(kāi)數(shù)據(jù)行業(yè)的支持,我們也期待數(shù)據(jù)行業(yè)能夠越來(lái)越完善,賦能AI,鑄夢(mèng)未來(lái)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2018-11-08
數(shù)據(jù)服務(wù):AI領(lǐng)域的“菊與刀” ——企業(yè)破解數(shù)據(jù)服務(wù)行業(yè)“約拿情結(jié)”的探索
“菊與刀”這個(gè)詞在誕生之初是指日本民族性格的雙重性及矛盾性,“菊”是日本皇室家徽,象征高尚與優(yōu)雅;“

長(zhǎng)按掃碼 閱讀全文