百度數(shù)據(jù)眾包,一門(mén)AI新基建的“基建”生意

原標(biāo)題:百度數(shù)據(jù)眾包,一門(mén)AI新基建的“基建”生意

文/智能相對(duì)論(aixdlun)

作者/葉遠(yuǎn)風(fēng)

AI成了新基建的C位,不論是原本就以AI立身的百度,還是紛紛在技術(shù)上加大投入以擁抱新基建的阿里、騰訊等巨頭,最近都顯出強(qiáng)化AI地位的態(tài)勢(shì)。

在AI新基建浪潮下,其背后的動(dòng)力和“靈魂”——AI數(shù)據(jù)行業(yè)正在快速增長(zhǎng)。按照艾瑞咨詢《2019年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)研究報(bào)告》,預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破113億元,其中,原本就在AI技術(shù)和應(yīng)用上領(lǐng)先的企業(yè)在數(shù)據(jù)業(yè)務(wù)上也更為積極。

有人曾稱5G是“新基建”的“基建”,是很多新基建項(xiàng)目的前置技術(shù)。事實(shí)上,以數(shù)據(jù)眾包為代表的AI數(shù)據(jù)行業(yè),也可以看作AI新基建的“基建”型業(yè)務(wù),為各行各業(yè)智能化轉(zhuǎn)型提供動(dòng)能,加速智能經(jīng)濟(jì)到來(lái)。反過(guò)來(lái),當(dāng)AI新基建蓬勃興起時(shí),它背后的數(shù)據(jù)眾包產(chǎn)業(yè)也面臨急速膨脹的市場(chǎng),這是一片門(mén)檻不算高的藍(lán)海,但并非人人都能做得好。

多重因素推動(dòng)AI數(shù)據(jù)需求進(jìn)一步增長(zhǎng)

AI從行業(yè)架構(gòu)上分為基礎(chǔ)層、技術(shù)層、平臺(tái)層以及應(yīng)用層。無(wú)論是算力、算法、數(shù)據(jù)都只是在基礎(chǔ)層,海量的數(shù)據(jù)獲取和加工是AI發(fā)展的基石。

我們通??吹降哪切〢I智能化應(yīng)用,在后端首先都需要足夠多、足夠好的數(shù)據(jù)對(duì)計(jì)算機(jī)進(jìn)行訓(xùn)練。

推動(dòng)基礎(chǔ)層AI數(shù)據(jù)需求進(jìn)一步增長(zhǎng),肯定來(lái)自于更上層的“倒逼”??傮w看來(lái),新基建的大背景下,整體AI行業(yè)的高速發(fā)展驅(qū)動(dòng)了AI數(shù)據(jù)需求的增長(zhǎng)“提速”,而具體來(lái)看,又有三重因素:

1、AI應(yīng)用落地時(shí)對(duì)數(shù)據(jù)的強(qiáng)依賴

以人臉識(shí)別為例,一般的FaceID已經(jīng)為人所熟知,其原理,是通過(guò)大量數(shù)據(jù)訓(xùn)練,讓算法可以精準(zhǔn)為整張臉標(biāo)記特征,眼睛、鼻子、嘴、顴骨……從而識(shí)別不同的人物、確定身份(圖片來(lái)源:網(wǎng)絡(luò)):

但是,實(shí)際應(yīng)用落地要想適用面更廣,又會(huì)有新的麻煩。

例如,疫情期間戴上了口罩,就沒(méi)辦法為鼻子以下的部位做特征標(biāo)記進(jìn)行比對(duì)。這時(shí)候,AI數(shù)據(jù)的價(jià)值就體現(xiàn)出來(lái)了,更復(fù)雜、更大量的數(shù)據(jù)訓(xùn)練,讓系統(tǒng)在鼻子以上部位能標(biāo)記出更多、更細(xì)致的特征,半邊臉就能完全區(qū)別出一個(gè)人來(lái),甚至有科技公司開(kāi)發(fā)出憑借眼部復(fù)雜特征的識(shí)別方式。

只有更高質(zhì)量、更具有豐富度的數(shù)據(jù),訓(xùn)練出更細(xì)致的特征標(biāo)注能力,系統(tǒng)識(shí)別的能力才會(huì)越強(qiáng)。在人臉識(shí)別之外,很多AI落地應(yīng)用也有類似的邏輯。

2、AI應(yīng)用場(chǎng)景深耕,垂直領(lǐng)域變?yōu)閿?shù)據(jù)競(jìng)逐

在AI走得更快、更遠(yuǎn)的一些場(chǎng)景,數(shù)據(jù)的價(jià)值更為明顯。

例如,在自動(dòng)駕駛領(lǐng)域,決定自動(dòng)駕駛平穩(wěn)性和安全性的,是系統(tǒng)對(duì)路況各種要素的識(shí)別,而它們都依賴于前期大量數(shù)據(jù)訓(xùn)練,給機(jī)器標(biāo)注各要素、教會(huì)它識(shí)別。

標(biāo)注得越精細(xì),機(jī)器的理解能力就會(huì)越強(qiáng),發(fā)生意外的可能性就越低,就像學(xué)生學(xué)習(xí)知識(shí)一樣,“不知道”的東西越來(lái)越少(圖片來(lái)源:網(wǎng)絡(luò))。

國(guó)內(nèi)處在自動(dòng)駕駛領(lǐng)先位置的百度,首先領(lǐng)先的就是數(shù)據(jù),其ApolloScape數(shù)據(jù)集比Cityscapes、Kitty等同類的自動(dòng)駕駛數(shù)據(jù)集大10倍以上,涵蓋更復(fù)雜的環(huán)境、天氣和交通狀況。

可以說(shuō),在那些深耕的場(chǎng)景里,AI的競(jìng)逐首先甚至主要就是數(shù)據(jù)的競(jìng)逐,AI新基建的深度落地,離不開(kāi)對(duì)數(shù)據(jù)的索求。

3、“AI國(guó)情”側(cè)重于數(shù)據(jù)發(fā)展

與多數(shù)人想象不同的是,同為AI基礎(chǔ)層,看起來(lái)十分高深的算法,其門(mén)檻已經(jīng)不算高,公開(kāi)渠道上,論文、開(kāi)源深度學(xué)習(xí)框架、各種各樣AutoML框架算法,可供獲取的很多。

除了百度這樣的AI巨頭還需要在算法上做一些突破和引領(lǐng),對(duì)多數(shù)AI參與者來(lái)說(shuō),算法已經(jīng)不是遙不可及。

而正如原南開(kāi)大學(xué)校長(zhǎng)龔克所言,中國(guó)在核心算法上的優(yōu)勢(shì)不算明顯,但中國(guó)的數(shù)據(jù)和應(yīng)用場(chǎng)景可以領(lǐng)先世界。

這方面,AI數(shù)據(jù)需要的應(yīng)用采集源(例如人相、交通道路圖像等)、勞動(dòng)力人口、需求市場(chǎng),中國(guó)原本也十分有優(yōu)勢(shì)。在這樣的“AI國(guó)情”下,AI新基建除了保證自有算法能力不被卡脖子,在已有大量落地場(chǎng)景的優(yōu)勢(shì)下,大力發(fā)展AI數(shù)據(jù)就順利成章。

三大痛點(diǎn),自建團(tuán)隊(duì)已并非“AI新基建”最優(yōu)選擇

AI數(shù)據(jù)的需求方,主要包括AI公司、科技公司、科研機(jī)構(gòu)以及傳統(tǒng)意義上的行業(yè)企業(yè)(手機(jī)、汽車(chē)、安防等),這個(gè)群體越來(lái)越龐大。

AI數(shù)據(jù)的市場(chǎng)供給,主要由企業(yè)自建或直接獲取外包團(tuán)隊(duì)的形式以及供應(yīng)商組成,而按照艾瑞咨詢的報(bào)告,供應(yīng)商模式占比高達(dá)79%。

問(wèn)題在于,為什么需求方們都熱衷于選擇數(shù)據(jù)眾包這類供應(yīng)商模式來(lái)獲得數(shù)據(jù),在數(shù)據(jù)需求龐大的情況下,為什么不自建團(tuán)隊(duì)采集和標(biāo)注數(shù)據(jù)?這主要基于三個(gè)痛點(diǎn):

1、數(shù)據(jù)需求的“潮汐現(xiàn)象”

春運(yùn)期間,鐵路運(yùn)力不夠,平時(shí),又大量閑置。

如果自建團(tuán)隊(duì),很多AI需求方將產(chǎn)生與此類似的“潮汐現(xiàn)象”:受自身產(chǎn)品迭代周期的影響,在AI迭代期涌入大量數(shù)據(jù)需求,團(tuán)隊(duì)難以承受;在日常維護(hù)期數(shù)據(jù)需求不是很旺盛,團(tuán)隊(duì)又在閑置。

于是,數(shù)據(jù)供應(yīng)商就成為彈性投入、增強(qiáng)企業(yè)適應(yīng)力的必然,市場(chǎng)供給的主力軍變成各類AI基礎(chǔ)數(shù)據(jù)的服務(wù)提供者。

2、數(shù)據(jù)資源池不足

自建團(tuán)隊(duì)往往面臨較為嚴(yán)重的數(shù)據(jù)資源池匱乏問(wèn)題。舉例來(lái)說(shuō),如果你是一家做與人體有關(guān)的圖像識(shí)別的專業(yè)公司,或者需要這樣的技術(shù)來(lái)配合主業(yè),你可能需要尋找不同膚色、不同外形特征的人物做AI數(shù)據(jù)采集,以提升AI的“認(rèn)知”能力,而對(duì)很多企業(yè)而言,除了依賴那些有限的開(kāi)源數(shù)據(jù),沒(méi)有太多辦法。

這方面,專門(mén)做數(shù)據(jù)業(yè)務(wù)的平臺(tái)就有明顯的資源聚集優(yōu)勢(shì)。例如,單就人物圖像來(lái)說(shuō),百度數(shù)據(jù)眾包的數(shù)據(jù)資源池在國(guó)內(nèi)覆蓋30個(gè)省份,具備漢族、少數(shù)民族采集能力;在國(guó)外覆蓋22個(gè)國(guó)家,具備白人、黑人、印第安人等多人種采集能力。

3、數(shù)據(jù)輸出能力的“維度差距”

數(shù)據(jù)眾包平臺(tái)集中大量地熟悉數(shù)據(jù)采標(biāo)業(yè)務(wù),已經(jīng)得到了充足的鍛煉,一些平臺(tái),例如百度數(shù)據(jù)眾包還對(duì)內(nèi)提供大量數(shù)據(jù)服務(wù),自2011年起全面支持百度自動(dòng)駕駛、小度助手等AI業(yè)務(wù),它們對(duì)于外部需求,在能力上更容易應(yīng)對(duì)。

這本質(zhì)上體現(xiàn)在通用的“標(biāo)準(zhǔn)化”和專項(xiàng)的“定制化”區(qū)別上。AI數(shù)據(jù)有時(shí)候只需要一些標(biāo)準(zhǔn)化的泛化數(shù)據(jù),例如道路要素標(biāo)記,車(chē)、路燈、行人、斑馬線、雙黃線等,有些時(shí)候則需要定制化數(shù)據(jù),例如專門(mén)針對(duì)鄉(xiāng)村小道的識(shí)別,其中可能有野狗、野貓等更復(fù)雜的要素。

但這種標(biāo)準(zhǔn)化和定制化只是相對(duì)的,對(duì)發(fā)展往往不夠充分的自建平臺(tái)而言是“定制化”(意味著需要花費(fèi)大量精力),到了數(shù)據(jù)眾包平臺(tái)那里,可能只是“標(biāo)準(zhǔn)化”的一部分,像百度數(shù)據(jù)眾包的標(biāo)注能力已經(jīng)可以覆蓋市95%以上的主要標(biāo)注場(chǎng)景。

AI新基建對(duì)數(shù)據(jù)采標(biāo)有三大要求,數(shù)據(jù)眾包都滿足了嗎?

有龐大而快速增長(zhǎng)的市場(chǎng),也有供應(yīng)商模式相對(duì)自建團(tuán)隊(duì)的優(yōu)勢(shì),在AI新基建浪潮下,數(shù)據(jù)眾包成為了一門(mén)“更好的生意”,這些年也有不斷大量的玩家加入(圖片來(lái)源:艾瑞咨詢):

總體而言,最早的玩家大都已經(jīng)取得較明顯的市場(chǎng)優(yōu)勢(shì),例如百度數(shù)據(jù)眾包已經(jīng)成為在世界范圍內(nèi)采標(biāo)能力、流程標(biāo)準(zhǔn)化/工具智能化、數(shù)據(jù)安全等方面都處于領(lǐng)先位置的一站式AI數(shù)據(jù)服務(wù)平臺(tái)(這與中國(guó)AI領(lǐng)先、百度以AI為主戰(zhàn)略也有關(guān)系),覆蓋了智能駕駛、手機(jī)、互聯(lián)網(wǎng)、AI開(kāi)發(fā)者等頭部客戶;

而新進(jìn)入者亦有沖勁,像云測(cè)數(shù)據(jù)從云測(cè)試轉(zhuǎn)身到AI數(shù)據(jù)行業(yè),對(duì)京東眾智、騰訊云數(shù)據(jù)、龍貓數(shù)據(jù)等都可能形成沖擊。

不過(guò),從需求方的角度看,不論是誰(shuí),“一門(mén)更好的生意”要坐實(shí),這三大基礎(chǔ)要求必須滿足。

1、安全:“銀行級(jí)合規(guī)”

AI數(shù)據(jù)不但是AI新基建的重要驅(qū)動(dòng)力,它也是企業(yè)的重要資產(chǎn),它的泄露和核心算法的泄露都是知識(shí)產(chǎn)權(quán)的重大損失,沒(méi)有根本區(qū)別。

只不過(guò),算法可以自己蒙頭在家管死,而在數(shù)據(jù)眾包市場(chǎng)上,涉及到甲乙方原始數(shù)據(jù)交接、生產(chǎn)過(guò)程及成果交付,這其中存在著許多數(shù)據(jù)安全的口子。

一旦上升到新基建的高度,對(duì)很多賴以生存的需求方來(lái)說(shuō),說(shuō)數(shù)據(jù)是命根子可能不為過(guò),對(duì)數(shù)據(jù)的處理保證安全是第一位的,甚至需要“銀行級(jí)合規(guī)”避免出現(xiàn)任何紕漏。

對(duì)巨頭而言,出現(xiàn)安全問(wèn)題就更加不能容忍,例如,百度數(shù)據(jù)眾包為此在數(shù)據(jù)確權(quán)、數(shù)據(jù)加密、實(shí)名認(rèn)證、生產(chǎn)監(jiān)控等方面進(jìn)行全流程管控確保數(shù)據(jù)安全(圖片來(lái)源:網(wǎng)絡(luò)):

如果我們翻開(kāi)各大平臺(tái)的官網(wǎng)主頁(yè),即便最新進(jìn)入的玩家云測(cè)數(shù)據(jù),都能發(fā)現(xiàn)它們用了很大的篇幅先講安全。

不過(guò),安全最終還是靠“不出事故”來(lái)檢驗(yàn),如同云計(jì)算穩(wěn)定性說(shuō)得再好,不宕機(jī)才是最好的證明。

2、“產(chǎn)量”:前沿科技下的密集的勞動(dòng)力

雖然AI是頂尖的前沿技術(shù),但AI數(shù)據(jù)確實(shí)一個(gè)不折不扣的勞動(dòng)力密集行業(yè)。AI新基建首先驅(qū)動(dòng)的是對(duì)數(shù)據(jù)產(chǎn)量的需求,這直接反應(yīng)到勞動(dòng)力規(guī)模是否足夠大上,畢竟,一張一張的圖、一句一句的話、一段一段的語(yǔ)音,都需要人力一個(gè)個(gè)標(biāo)記好。

這是一個(gè)直觀的要求,它的實(shí)現(xiàn)又分自有團(tuán)隊(duì)和代理全職團(tuán)隊(duì)兩個(gè)部分,例如百度數(shù)據(jù)眾包宣稱自有2000人團(tuán)隊(duì)、遍布全球22個(gè)國(guó)家的超過(guò)5萬(wàn)名采標(biāo)人員的代理商資源池——基本上,各平臺(tái)都在著力凸顯自己的團(tuán)隊(duì)規(guī)模,龐大的勞動(dòng)力群體是AI新基建的獲取足夠多數(shù)據(jù)的重要保障。

但是,正如工廠流水線有最優(yōu)生產(chǎn)流程,有幫助工人更快、更好完成工作的輔助工具一樣,要提高產(chǎn)量、提升效率,流程和工具也必不可少,標(biāo)準(zhǔn)化、工業(yè)化的生產(chǎn)流程、高效易用的標(biāo)注工具,也是百度等數(shù)據(jù)巨頭提升自我的重要著力點(diǎn)。只不過(guò),這些只是起到“乘數(shù)作用”,底子還是看勞動(dòng)力規(guī)模。

3、質(zhì)量:“精益制造”級(jí)別的復(fù)雜管理體系

在安全、產(chǎn)量之外,質(zhì)量是數(shù)據(jù)眾包成為一門(mén)可持續(xù)生意的根本,也是AI新基建真正落地的根本,質(zhì)量不達(dá)標(biāo)的數(shù)據(jù)不但不能推進(jìn)系統(tǒng)識(shí)別能力的提升,甚至可能產(chǎn)生誤導(dǎo),如同學(xué)生學(xué)習(xí)了低劣的習(xí)題集再去考試一樣。

而說(shuō)白了,數(shù)據(jù)眾包可以看作一門(mén)以數(shù)據(jù)為產(chǎn)品的“制造業(yè)”,要提升質(zhì)量,對(duì)應(yīng)地,就要配以“精益制造”級(jí)別的復(fù)雜管理體系。

這個(gè)體系,通常包括嚴(yán)苛的審核體系(例如標(biāo)注、審核、抽檢的層層把關(guān))、人盡其用(不能混用CV、NLP等數(shù)據(jù)人員)、固定的例會(huì)總結(jié)問(wèn)題提醒改進(jìn)等,此外,還有一些工業(yè)化生產(chǎn)流程的濃重痕跡,例如百度數(shù)據(jù)眾包平臺(tái)的三階段“生產(chǎn)加工流程”——小流量測(cè)試跑通生產(chǎn)流程、正式生產(chǎn)不斷調(diào)優(yōu)、交付時(shí)最終驗(yàn)收審核。

可以說(shuō),AI數(shù)據(jù)對(duì)質(zhì)量的要求,和精細(xì)化制造業(yè)實(shí)現(xiàn)更好的良品率,別無(wú)二致。

數(shù)據(jù)眾包,不止于AI新基建?

由于“勞動(dòng)力需求”的特殊性,數(shù)據(jù)眾包在特殊的時(shí)代背景下還超出了AI新基建的價(jià)值范圍。

脫離行業(yè)角度,從穩(wěn)就業(yè)來(lái)看,百度山西數(shù)據(jù)標(biāo)注基地人員規(guī)模已近3000人,這些都是實(shí)實(shí)在在的就業(yè)人口容納能力,是應(yīng)屆畢業(yè)生、其他行業(yè)分流人員(例如在山西的某傳統(tǒng)產(chǎn)業(yè))甚至包括殘障人士的一份生計(jì)。加上其他工作人員,后疫情時(shí)期,一個(gè)數(shù)據(jù)眾包平臺(tái)已經(jīng)幫助當(dāng)?shù)貙?shí)現(xiàn)就業(yè)。百度方面表示未來(lái)要通過(guò)山西基地的示范作用,聚攏更多數(shù)據(jù)企業(yè),為山西本地創(chuàng)造超過(guò)5萬(wàn)個(gè)就業(yè)崗位。

甚至于,百度數(shù)據(jù)眾包還打算打通數(shù)據(jù)生產(chǎn),數(shù)據(jù)交易和數(shù)據(jù)應(yīng)用的三個(gè)環(huán)節(jié),做一個(gè)開(kāi)放的平臺(tái),如果這個(gè)構(gòu)想成功,在AI數(shù)據(jù)領(lǐng)域建立一個(gè)資源對(duì)接的市場(chǎng),不僅是AI新基建背后的數(shù)據(jù)生態(tài)閉環(huán)問(wèn)題,或還將匯聚起大量的就業(yè)機(jī)會(huì)和新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)。

我們否定AI將摧毀就業(yè)機(jī)會(huì)時(shí),理由常常是新的技術(shù)一定會(huì)帶來(lái)新的工作崗位,而AI數(shù)據(jù)產(chǎn)業(yè)毫無(wú)疑問(wèn)就是正在發(fā)生的例證。數(shù)據(jù)眾包不僅將是一門(mén)更好的生意,也是下一個(gè)時(shí)代許多人的職業(yè)去處。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

此內(nèi)容為【智能相對(duì)論】原創(chuàng),

僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。

智能相對(duì)論(微信ID:aixdlun):

?AI產(chǎn)業(yè)新媒體;

?今日頭條青云計(jì)劃獲獎(jiǎng)?wù)逿OP10;

?澎湃新聞科技榜單月度top5;

?文章長(zhǎng)期“霸占”鈦媒體熱門(mén)文章排行榜TOP10;

?著有《人工智能 十萬(wàn)個(gè)為什么》

?【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無(wú)人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開(kāi)發(fā)者以及背后的芯片、算法等。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-12-30
百度數(shù)據(jù)眾包,一門(mén)AI新基建的“基建”生意
總體看來(lái),新基建的大背景下,整體AI行業(yè)的高速發(fā)展驅(qū)動(dòng)了AI數(shù)據(jù)需求的增長(zhǎng)“提速”,而具體來(lái)看,又有三重因素: 這方面,AI數(shù)據(jù)需要的應(yīng)用采集源(例如人相、交通道路圖像等)、勞動(dòng)力人口、需求市場(chǎng),中國(guó)

長(zhǎng)按掃碼 閱讀全文