AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代

原標(biāo)題:AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代

文 | 李永華

來源 | 智能相對(duì)論(ID:aixdlun)

工作人員齊整坐好,每個(gè)人都對(duì)著電腦全神貫注,一件又一件的“東西”在眼前劃過,經(jīng)過標(biāo)準(zhǔn)化處理就轉(zhuǎn)到下一流程……這實(shí)際上是人工智能行業(yè)里的數(shù)據(jù)標(biāo)注辦公區(qū)一角。

由于深度學(xué)習(xí)的研究方向,人力密集型的數(shù)據(jù)標(biāo)注工作是推進(jìn)人工智能技術(shù)落地的重要環(huán)節(jié)之一。

很長一段時(shí)間以來,在過往AI的發(fā)展中數(shù)據(jù)的采集與標(biāo)注行業(yè)沒有過多地被關(guān)注,畢竟,與算法、算力這些高大上的東西相比,AI數(shù)據(jù)的生產(chǎn)總帶著那么幾分與AI技術(shù)的“科技感”截然不同的形象。

然而,隨著AI的發(fā)展走向縱深,更多人發(fā)現(xiàn)這是一個(gè)誤解,AI數(shù)據(jù)產(chǎn)業(yè)正在向著高專業(yè)化、高質(zhì)量化的方向蓬勃發(fā)展。

根據(jù)2018年智研發(fā)布的《2019-2025年中國數(shù)據(jù)標(biāo)注與審核行業(yè)市場專項(xiàng)分析研究及投資前景預(yù)測報(bào)告》,2018年該行業(yè)市場規(guī)模已達(dá)到52.55億元,2020年市場規(guī)模有望突破百億。有行業(yè)人士估計(jì)AI項(xiàng)目中會(huì)有10%的資金用于數(shù)據(jù)的采集和標(biāo)記,2020年,數(shù)據(jù)標(biāo)注行業(yè)最終市場規(guī)模將達(dá)到150億。

而分享市場的,既有BAT、京東等互聯(lián)網(wǎng)巨頭,也有云測數(shù)據(jù)這種專注于高質(zhì)量交付的專業(yè)化數(shù)據(jù)平臺(tái)。

龐大的前景下,數(shù)據(jù)采集與標(biāo)注也可以分NLP(自然語音處理)、CV(計(jì)算機(jī)視覺)等幾個(gè)部分,隨著數(shù)據(jù)需求量的增大、對(duì)數(shù)據(jù)質(zhì)量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數(shù)據(jù)產(chǎn)業(yè)終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。

AI的數(shù)據(jù)、算法和算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代

芯片制程以及大規(guī)模并聯(lián)計(jì)算技術(shù)的發(fā)展,使得算力快速提升后,AI能力的提升主要集中到了算法和數(shù)據(jù)上(算力提升當(dāng)然還有價(jià)值,只是相對(duì)價(jià)值那么明顯了,例如不可能對(duì)一個(gè)物聯(lián)網(wǎng)終端設(shè)備有太多的算力設(shè)定要求)。

這方面,多年以來,人工智能技術(shù)都呈現(xiàn)“輪流坐莊”的螺旋提升關(guān)系:

算法突破后,可容納的數(shù)據(jù)計(jì)算量往往變得很大,所以會(huì)迎來一波數(shù)據(jù)需求的高潮;而當(dāng)AI數(shù)據(jù)通過某些方式達(dá)到一個(gè)新的程度時(shí),原來的算法又“不夠了”,需要提升。

2018年11月,Google AI團(tuán)隊(duì)推出劃時(shí)代的BERT模型,在NLP業(yè)內(nèi)引起巨大反響,認(rèn)為是NLP領(lǐng)域里程碑式的進(jìn)步,地位類似于更早期出現(xiàn)的Resnet相對(duì)于CV的價(jià)值。

以BERT為主的算法體系開始在AI領(lǐng)域大放異彩,從那時(shí)起,數(shù)據(jù)的重要性排在了NLP的首位。

加上兩個(gè)方面的因素,這等于把NLP數(shù)據(jù)采集與標(biāo)注推到了更有挑戰(zhàn)的位置上。

一個(gè)因素,是NLP本身相對(duì)CV在AI數(shù)據(jù)方面的要求就更復(fù)雜。

CV是“感知型”AI,在數(shù)據(jù)方面有Ground Truth(近似理解為標(biāo)準(zhǔn)答案),例如在一個(gè)圖片中,車、人、車道線等是什么就是什么,在采集和標(biāo)注時(shí)很難出現(xiàn)“感知錯(cuò)誤”(圖片來源:云測數(shù)據(jù))

而NLP是“認(rèn)知”型AI,依賴人的理解不同產(chǎn)生不同的意義,表達(dá)出各種需要揣測的意圖,Ground Truth是主觀的。

例如,“這房間就是個(gè)烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點(diǎn),應(yīng)用于AI時(shí),需要被多方位、深度探索。

另一個(gè)因素,是AI數(shù)據(jù)的價(jià)值整體上由“飼料”到“奶粉”,對(duì)NLP而言這更有挑戰(zhàn)。

大部分算法在擁有足夠多常規(guī)標(biāo)注數(shù)據(jù)的情況下,能夠?qū)⒆R(shí)別準(zhǔn)確率提升到95%,而商業(yè)化落地的需求現(xiàn)在顯然不止于此,精細(xì)化、場景化、高質(zhì)量的數(shù)據(jù)成為關(guān)鍵點(diǎn),從95% 再提升到99% 甚至99.9%需要大量高質(zhì)量的標(biāo)注數(shù)據(jù),它們成為制約模型和算法突破瓶頸的關(guān)鍵指標(biāo)。

但是,正如云測數(shù)據(jù)總經(jīng)理賈宇航所言,“圖像采標(biāo)有很強(qiáng)的規(guī)則性,按照規(guī)范化的指導(dǎo)文檔工作即可,但NLP數(shù)據(jù)對(duì)應(yīng)的是語言的豐富性,需要結(jié)合上下文等背景去理解和處理?!痹诟呶惶嵘@件事上,NLP數(shù)據(jù)更難。

例如,在訂機(jī)票這個(gè)看似簡單的AI對(duì)話場景中,想訂票的人會(huì)有多種表達(dá),“有去上海的航班么”,“要出差,幫我查下機(jī)票”,“查下航班,下周二出發(fā)去上?!薄匀徽Z言有無窮多的組合表現(xiàn)出這個(gè)意圖,AI要“認(rèn)得”它們,就需要大量高質(zhì)量的數(shù)據(jù)的訓(xùn)練。

由此,我們再來理解商業(yè)機(jī)會(huì)。

數(shù)據(jù)采集與標(biāo)注的公司有很多,從巨頭的“副業(yè)”到AI數(shù)據(jù)專業(yè)化平臺(tái),總體而言主要玩家如圖所示:

除此之外,更多中小玩家甚至幾十人的草臺(tái)班子數(shù)不勝數(shù)。在中國,目前全國從事數(shù)據(jù)標(biāo)注業(yè)務(wù)的公司約有幾百家,全職的數(shù)據(jù)標(biāo)注從業(yè)者有約20萬人,兼職數(shù)據(jù)標(biāo)注從業(yè)者有約100萬人。

易入門、難精通,而上述兩大因素決定NLP數(shù)據(jù)面臨巨大的挑戰(zhàn),做得好的就更少。

在數(shù)據(jù)“坐莊”NLP的大背景下,空出了大量的商業(yè)機(jī)會(huì),而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數(shù)據(jù)相對(duì)于CV更像一個(gè)藍(lán)海。

打破單純“體力活”標(biāo)簽,NLP數(shù)據(jù)采集與標(biāo)注從四個(gè)方面自我演進(jìn)

有機(jī)會(huì)就總有人會(huì)進(jìn)場,不久前,中國人工智能高峰論發(fā)布了中國人工智能科技服務(wù)商50強(qiáng),既有商湯、曠視這種明星企業(yè),也出現(xiàn)了榜單內(nèi)唯一的AI數(shù)據(jù)服務(wù)商云測數(shù)據(jù),這顯示AI數(shù)據(jù)正在進(jìn)入“主流圈”,在藍(lán)海中嘗試跑出獨(dú)角獸企業(yè)。

當(dāng)然,前提是平臺(tái)能夠解決好NLP數(shù)據(jù)的痛點(diǎn)問題。

事實(shí)上,CV的“感知”需求使得“體力活”可能就能夠勝任大多數(shù)據(jù)生產(chǎn)工作(誰不認(rèn)識(shí)一輛車、一個(gè)人呢),而“認(rèn)知”的NLP數(shù)據(jù)要突圍,只是“體力活”早已經(jīng)不夠。

至少目前來看,行業(yè)玩家在四個(gè)方面有所動(dòng)作,或正在解決NLP數(shù)據(jù)痛點(diǎn)問題。

1、業(yè)務(wù)模式,用“定制化”迎合商業(yè)落地期的NLP

曾有媒體向Google工程師提起M-Turk的時(shí)候,他表示“我們不敢用Turk標(biāo)注”,因?yàn)榛厥盏臄?shù)據(jù)良莠不齊。

眾包模式(在公開平臺(tái)發(fā)布任務(wù),自由申領(lǐng))是曾經(jīng)的AI數(shù)據(jù)產(chǎn)業(yè)主流,擁有數(shù)據(jù)豐富性和多樣性的優(yōu)勢,不過數(shù)據(jù)質(zhì)量比較難以把控。在數(shù)據(jù)精細(xì)化要求的今天,很多需求方都轉(zhuǎn)向了“定制化”(一對(duì)一,以項(xiàng)目制的方式完成交辦的數(shù)據(jù)任務(wù))服務(wù)模式。

例如,云測數(shù)據(jù)的“定制化”服務(wù)模式,跟的就是需求方復(fù)雜、精深而個(gè)性化的數(shù)據(jù)要求。具體到NLP,在數(shù)據(jù)采集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業(yè)等)、不同方言的聲音/文本數(shù)據(jù)采集;在數(shù)據(jù)標(biāo)注上進(jìn)行需求的對(duì)接、理解清楚場景化要求再分發(fā)盡量具體的規(guī)范指導(dǎo)(同樣一句話在不同交流目的中可能需要標(biāo)注不同的內(nèi)容,例如“我沒錢”在信貸服務(wù)中意味著潛在客戶,在理財(cái)服務(wù)中則表達(dá)拒絕的態(tài)度)。

當(dāng)然,眾包模式也有它的優(yōu)點(diǎn),能夠輕量化承載大量相對(duì)簡單的數(shù)據(jù)需求,而場景化的定制模式則更專業(yè),主要依靠自有員工和基地,像云測數(shù)據(jù)就在華東、華南、華北擁有自建標(biāo)注基地,這種玩法顯然更適合匹配客單價(jià)更高的場景化、定制化需求,NLP是典型。

2、管理流程,從“粗放制造”到“精益制造”

既然數(shù)據(jù)采集與標(biāo)注很像是工廠的流水線,那么如果要提升數(shù)據(jù)的精準(zhǔn)度,其實(shí)就如同“制造業(yè)”升級(jí)那樣需要進(jìn)行“粗放制造”到“精益制造”的轉(zhuǎn)變,首要體現(xiàn)在管理流程的優(yōu)化上。

無論是從平臺(tái)接取任務(wù)的眾包團(tuán)隊(duì),還是直接對(duì)接需求方的定制化服務(wù)平臺(tái),至少,草臺(tái)班子式的做法已經(jīng)不適合NLP對(duì)數(shù)據(jù)的要求。

高精準(zhǔn)度、高效率,都依賴管理流程的優(yōu)化,以云測數(shù)據(jù)為例,具體做法包括這幾個(gè)大方向:

標(biāo)注、審核、抽檢的層層把關(guān):標(biāo)注人員的結(jié)果交由另一批人進(jìn)行審核,打回不合格的,最終再由質(zhì)檢進(jìn)行抽檢,大體如此,可能步驟更復(fù)雜;

人才類型的基礎(chǔ)分類:文本、語音、圖像標(biāo)注人員不相互混用;

擅長場景的優(yōu)先任務(wù)派發(fā):在同等條件下,擅長對(duì)應(yīng)場景的人優(yōu)先派發(fā)給任務(wù)。

例會(huì)制度:如同精細(xì)化管理的制造業(yè)一樣,早會(huì)、晚會(huì)、周會(huì)、月會(huì),總結(jié)問題、提醒改進(jìn)。

……

而無論如何,管理流程的事,說得再多,日常工作的落實(shí)才是最重要的。

3、職業(yè)技能,專業(yè)培訓(xùn)擺脫“低水平重復(fù)”

“不要門檻”意味著更低的價(jià)值,在人員個(gè)人能力上,NLP在逐漸拋棄那些“無門檻”入局的人,尤其是在特定的場景需求下。

例如,這是一個(gè)非常簡單的NLP數(shù)據(jù)標(biāo)注實(shí)例:

它的需求可能只有初中語文即可。但是,NLP的數(shù)據(jù)需求早已超過這樣的標(biāo)注太多。

例如,客服詢問用戶是否購買此商品時(shí),“我要和家人商量一下”、“我會(huì)考慮”、“我現(xiàn)在不方便,你一會(huì)兒再打過來”,標(biāo)注人員得準(zhǔn)確標(biāo)注出暫不購買,暫不考慮,拒絕購買或者興趣較大等多種意圖。

一方面,這依賴于平臺(tái)進(jìn)行的場景深挖,這也是為什么云測數(shù)據(jù)智能客服單個(gè)場景的意圖標(biāo)注就分為10-20個(gè)大類、上百個(gè)子類,根據(jù)業(yè)務(wù)需求可能還會(huì)有進(jìn)一步的標(biāo)注細(xì)分,如此數(shù)據(jù)標(biāo)注可以更細(xì)化、直達(dá)需求。

另一方面,這繞不開人員能力的持續(xù)培訓(xùn),把“干體力”的標(biāo)注工人轉(zhuǎn)化成懂一些專業(yè)的業(yè)務(wù)人員,典型的如云測數(shù)據(jù)在金融服務(wù)領(lǐng)域通過幾個(gè)月的專業(yè)培訓(xùn),培養(yǎng)出銷售人員視角去揣測用戶話語中的意圖。

舉例來看,在客服溝通中,用戶回饋“我在開車”這短短的一個(gè)語料數(shù)據(jù),可能需要標(biāo)記出“有車一族”、“司機(jī)”、“沒有明顯拒絕”、“可能有興趣”等多個(gè)標(biāo)注給NLP算法,按云測數(shù)據(jù)自己的說法,其培訓(xùn)達(dá)到的目標(biāo),是讓標(biāo)注員工達(dá)到成為專業(yè)員工的水準(zhǔn)。

顯然,在NLP標(biāo)注數(shù)據(jù)的初期階段將各大金融機(jī)構(gòu)的AI客服機(jī)器人訓(xùn)練到大致相當(dāng)?shù)某跫?jí)認(rèn)知智能水平后,再進(jìn)行提升、提高銷售轉(zhuǎn)化或者服務(wù)滿意度,都需要質(zhì)量更高、針對(duì)特定需求更強(qiáng)的NLP標(biāo)注數(shù)據(jù)。

值得一提的是,在NLP領(lǐng)域不是所有標(biāo)注都能通過人員培訓(xùn)來解決,醫(yī)療、法律等過于專業(yè)的領(lǐng)域可能還是依賴專家標(biāo)注(邀請(qǐng)醫(yī)生、律師等參與標(biāo)注),那是一個(gè)更復(fù)雜的故事了。

4、工具使用,持續(xù)加碼“便捷化”

工欲善其事必先利其器,NLP的標(biāo)注雖然不像CV有很多空間維度的數(shù)據(jù)需求,但工具提升便捷度進(jìn)而提升標(biāo)準(zhǔn)效率和準(zhǔn)確性的價(jià)值仍然不可小覷。

這方面,巨頭的腳步更早,在國外,Google Fluid Annotation一度是NLP標(biāo)注“最好使”的工具,國內(nèi),大廠和專業(yè)平臺(tái)的工具也被廣泛使用,云測數(shù)據(jù)在工具上的創(chuàng)新優(yōu)勢很明顯。

總體而言,標(biāo)注工具適合自己的才是最好的。這種根據(jù)定制化需求開發(fā)貼合實(shí)際需要的數(shù)據(jù)工具對(duì)場景化數(shù)據(jù)的生產(chǎn),發(fā)揮著重要作用。

無論如何,持續(xù)加碼“便捷化”,是一個(gè)不會(huì)停止的過程。

NLP數(shù)據(jù)產(chǎn)業(yè)的機(jī)會(huì),將會(huì)是誰坐莊?

在AI領(lǐng)域,雖然有大廠走在前列,但市場并沒有被巨頭壟斷,中型AI平臺(tái)也常常嶄露頭角成為主角。以AI數(shù)據(jù)服務(wù)領(lǐng)域?yàn)槔?,像云測數(shù)據(jù)這種專注于企業(yè)服務(wù)的第三方獨(dú)立平臺(tái),以客戶為中心的企業(yè)基因,一直貫穿在數(shù)據(jù)交付的始終。

一個(gè)典型的表現(xiàn)是,高精確度的NLP數(shù)據(jù)需要以企業(yè)服務(wù)的心態(tài)與客戶仔細(xì)對(duì)接需求,例如,用戶需求的場景是什么,如果是訂票,AI問答應(yīng)該主要導(dǎo)向訂票,對(duì)應(yīng)的NLP數(shù)據(jù)也要往這個(gè)方向去標(biāo)注。

這一過程中需要數(shù)據(jù)服務(wù)人員對(duì)需求進(jìn)行拆解、預(yù)判甚至提前給出建議,與客戶反復(fù)溝通確認(rèn)達(dá)成一致后,才能真正地去作業(yè)。大廠偏重于技術(shù)架構(gòu)、前沿技術(shù)開發(fā)、云服務(wù)器中心大規(guī)模并發(fā)能力等建設(shè),很難俯下身好好完成這件事,這時(shí)候,AI數(shù)據(jù)專業(yè)化平臺(tái)更有優(yōu)勢。

此外,影響競爭格局走向的還有數(shù)據(jù)服務(wù)的安全性。

在數(shù)據(jù)采集與標(biāo)注行業(yè),復(fù)制一份數(shù)據(jù)在技術(shù)上非常簡單,也能節(jié)省大量的人力和運(yùn)營成本,但給客戶帶來的損失卻不小(尤其是被競爭對(duì)手拿到),保證數(shù)據(jù)隱私性和安全性,在AI激烈的競爭環(huán)境下幾乎成為某些客戶的首要決策標(biāo)準(zhǔn)。

總而言之,高專業(yè)度、高精準(zhǔn)度、高效率、強(qiáng)安全才能贏得AI數(shù)據(jù)客戶尤其是NLP數(shù)據(jù)客戶的選擇,不論巨頭還是AI數(shù)據(jù)專業(yè)化平臺(tái)在行業(yè)爆發(fā)式增長的關(guān)口都在努力,落實(shí)和推進(jìn)了諸多動(dòng)作。NLP數(shù)據(jù)產(chǎn)業(yè)正處在藍(lán)海,一個(gè)不會(huì)由巨頭坐莊的藍(lán)海。

此內(nèi)容為【智能相對(duì)論】原創(chuàng),

僅代表個(gè)人觀點(diǎn),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

部分圖片來自網(wǎng)絡(luò),且未核實(shí)版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請(qǐng)作者與我們聯(lián)系。

智能相對(duì)論(微信ID:aixdlun):

?AI產(chǎn)業(yè)新媒體;

?今日頭條青云計(jì)劃獲獎(jiǎng)?wù)逿OP10;

?澎湃新聞科技榜單月度top5;

?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

?著有《人工智能 十萬個(gè)為什么》

?【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機(jī)、無人機(jī)等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機(jī)器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計(jì)算、開發(fā)者以及背后的芯片、算法等。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-05-08
AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代
工作人員齊整坐好,每個(gè)人都對(duì)著電腦全神貫注,一件又一件的“東西”在眼前劃過,經(jīng)過標(biāo)準(zhǔn)化處理就轉(zhuǎn)到下一流程……這實(shí)際上是人工智能行業(yè)里的數(shù)據(jù)標(biāo)注辦公區(qū)一角。

長按掃碼 閱讀全文