原標題:AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代
文 | 李永華
來源 | 智能相對論(ID:aixdlun)
工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的“東西”在眼前劃過,經(jīng)過標準化處理就轉(zhuǎn)到下一流程……這實際上是人工智能行業(yè)里的數(shù)據(jù)標注辦公區(qū)一角。
由于深度學習的研究方向,人力密集型的數(shù)據(jù)標注工作是推進人工智能技術落地的重要環(huán)節(jié)之一。
很長一段時間以來,在過往AI的發(fā)展中數(shù)據(jù)的采集與標注行業(yè)沒有過多地被關注,畢竟,與算法、算力這些高大上的東西相比,AI數(shù)據(jù)的生產(chǎn)總帶著那么幾分與AI技術的“科技感”截然不同的形象。
然而,隨著AI的發(fā)展走向縱深,更多人發(fā)現(xiàn)這是一個誤解,AI數(shù)據(jù)產(chǎn)業(yè)正在向著高專業(yè)化、高質(zhì)量化的方向蓬勃發(fā)展。
根據(jù)2018年智研發(fā)布的《2019-2025年中國數(shù)據(jù)標注與審核行業(yè)市場專項分析研究及投資前景預測報告》,2018年該行業(yè)市場規(guī)模已達到52.55億元,2020年市場規(guī)模有望突破百億。有行業(yè)人士估計AI項目中會有10%的資金用于數(shù)據(jù)的采集和標記,2020年,數(shù)據(jù)標注行業(yè)最終市場規(guī)模將達到150億。
而分享市場的,既有BAT、京東等互聯(lián)網(wǎng)巨頭,也有云測數(shù)據(jù)這種專注于高質(zhì)量交付的專業(yè)化數(shù)據(jù)平臺。
龐大的前景下,數(shù)據(jù)采集與標注也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數(shù)據(jù)需求量的增大、對數(shù)據(jù)質(zhì)量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數(shù)據(jù)產(chǎn)業(yè)終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。
AI的數(shù)據(jù)、算法和算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代
芯片制程以及大規(guī)模并聯(lián)計算技術的發(fā)展,使得算力快速提升后,AI能力的提升主要集中到了算法和數(shù)據(jù)上(算力提升當然還有價值,只是相對價值那么明顯了,例如不可能對一個物聯(lián)網(wǎng)終端設備有太多的算力設定要求)。
這方面,多年以來,人工智能技術都呈現(xiàn)“輪流坐莊”的螺旋提升關系:
算法突破后,可容納的數(shù)據(jù)計算量往往變得很大,所以會迎來一波數(shù)據(jù)需求的高潮;而當AI數(shù)據(jù)通過某些方式達到一個新的程度時,原來的算法又“不夠了”,需要提升。
2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業(yè)內(nèi)引起巨大反響,認為是NLP領域里程碑式的進步,地位類似于更早期出現(xiàn)的Resnet相對于CV的價值。
以BERT為主的算法體系開始在AI領域大放異彩,從那時起,數(shù)據(jù)的重要性排在了NLP的首位。
加上兩個方面的因素,這等于把NLP數(shù)據(jù)采集與標注推到了更有挑戰(zhàn)的位置上。
一個因素,是NLP本身相對CV在AI數(shù)據(jù)方面的要求就更復雜。
CV是“感知型”AI,在數(shù)據(jù)方面有Ground Truth(近似理解為標準答案),例如在一個圖片中,車、人、車道線等是什么就是什么,在采集和標注時很難出現(xiàn)“感知錯誤”(圖片來源:云測數(shù)據(jù))
而NLP是“認知”型AI,依賴人的理解不同產(chǎn)生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。
例如,“這房間就是個烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點,應用于AI時,需要被多方位、深度探索。
另一個因素,是AI數(shù)據(jù)的價值整體上由“飼料”到“奶粉”,對NLP而言這更有挑戰(zhàn)。
大部分算法在擁有足夠多常規(guī)標注數(shù)據(jù)的情況下,能夠?qū)⒆R別準確率提升到95%,而商業(yè)化落地的需求現(xiàn)在顯然不止于此,精細化、場景化、高質(zhì)量的數(shù)據(jù)成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質(zhì)量的標注數(shù)據(jù),它們成為制約模型和算法突破瓶頸的關鍵指標。
但是,正如云測數(shù)據(jù)總經(jīng)理賈宇航所言,“圖像采標有很強的規(guī)則性,按照規(guī)范化的指導文檔工作即可,但NLP數(shù)據(jù)對應的是語言的豐富性,需要結(jié)合上下文等背景去理解和處理?!痹诟呶惶嵘@件事上,NLP數(shù)據(jù)更難。
例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,“有去上海的航班么”,“要出差,幫我查下機票”,“查下航班,下周二出發(fā)去上?!薄匀徽Z言有無窮多的組合表現(xiàn)出這個意圖,AI要“認得”它們,就需要大量高質(zhì)量的數(shù)據(jù)的訓練。
由此,我們再來理解商業(yè)機會。
數(shù)據(jù)采集與標注的公司有很多,從巨頭的“副業(yè)”到AI數(shù)據(jù)專業(yè)化平臺,總體而言主要玩家如圖所示:
除此之外,更多中小玩家甚至幾十人的草臺班子數(shù)不勝數(shù)。在中國,目前全國從事數(shù)據(jù)標注業(yè)務的公司約有幾百家,全職的數(shù)據(jù)標注從業(yè)者有約20萬人,兼職數(shù)據(jù)標注從業(yè)者有約100萬人。
易入門、難精通,而上述兩大因素決定NLP數(shù)據(jù)面臨巨大的挑戰(zhàn),做得好的就更少。
在數(shù)據(jù)“坐莊”NLP的大背景下,空出了大量的商業(yè)機會,而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數(shù)據(jù)相對于CV更像一個藍海。
打破單純“體力活”標簽,NLP數(shù)據(jù)采集與標注從四個方面自我演進
有機會就總有人會進場,不久前,中國人工智能高峰論發(fā)布了中國人工智能科技服務商50強,既有商湯、曠視這種明星企業(yè),也出現(xiàn)了榜單內(nèi)唯一的AI數(shù)據(jù)服務商云測數(shù)據(jù),這顯示AI數(shù)據(jù)正在進入“主流圈”,在藍海中嘗試跑出獨角獸企業(yè)。
當然,前提是平臺能夠解決好NLP數(shù)據(jù)的痛點問題。
事實上,CV的“感知”需求使得“體力活”可能就能夠勝任大多數(shù)據(jù)生產(chǎn)工作(誰不認識一輛車、一個人呢),而“認知”的NLP數(shù)據(jù)要突圍,只是“體力活”早已經(jīng)不夠。
至少目前來看,行業(yè)玩家在四個方面有所動作,或正在解決NLP數(shù)據(jù)痛點問題。
1、業(yè)務模式,用“定制化”迎合商業(yè)落地期的NLP
曾有媒體向Google工程師提起M-Turk的時候,他表示“我們不敢用Turk標注”,因為回收的數(shù)據(jù)良莠不齊。
眾包模式(在公開平臺發(fā)布任務,自由申領)是曾經(jīng)的AI數(shù)據(jù)產(chǎn)業(yè)主流,擁有數(shù)據(jù)豐富性和多樣性的優(yōu)勢,不過數(shù)據(jù)質(zhì)量比較難以把控。在數(shù)據(jù)精細化要求的今天,很多需求方都轉(zhuǎn)向了“定制化”(一對一,以項目制的方式完成交辦的數(shù)據(jù)任務)服務模式。
例如,云測數(shù)據(jù)的“定制化”服務模式,跟的就是需求方復雜、精深而個性化的數(shù)據(jù)要求。具體到NLP,在數(shù)據(jù)采集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業(yè)等)、不同方言的聲音/文本數(shù)據(jù)采集;在數(shù)據(jù)標注上進行需求的對接、理解清楚場景化要求再分發(fā)盡量具體的規(guī)范指導(同樣一句話在不同交流目的中可能需要標注不同的內(nèi)容,例如“我沒錢”在信貸服務中意味著潛在客戶,在理財服務中則表達拒絕的態(tài)度)。
當然,眾包模式也有它的優(yōu)點,能夠輕量化承載大量相對簡單的數(shù)據(jù)需求,而場景化的定制模式則更專業(yè),主要依靠自有員工和基地,像云測數(shù)據(jù)就在華東、華南、華北擁有自建標注基地,這種玩法顯然更適合匹配客單價更高的場景化、定制化需求,NLP是典型。
2、管理流程,從“粗放制造”到“精益制造”
既然數(shù)據(jù)采集與標注很像是工廠的流水線,那么如果要提升數(shù)據(jù)的精準度,其實就如同“制造業(yè)”升級那樣需要進行“粗放制造”到“精益制造”的轉(zhuǎn)變,首要體現(xiàn)在管理流程的優(yōu)化上。
無論是從平臺接取任務的眾包團隊,還是直接對接需求方的定制化服務平臺,至少,草臺班子式的做法已經(jīng)不適合NLP對數(shù)據(jù)的要求。
高精準度、高效率,都依賴管理流程的優(yōu)化,以云測數(shù)據(jù)為例,具體做法包括這幾個大方向:
標注、審核、抽檢的層層把關:標注人員的結(jié)果交由另一批人進行審核,打回不合格的,最終再由質(zhì)檢進行抽檢,大體如此,可能步驟更復雜;
人才類型的基礎分類:文本、語音、圖像標注人員不相互混用;
擅長場景的優(yōu)先任務派發(fā):在同等條件下,擅長對應場景的人優(yōu)先派發(fā)給任務。
例會制度:如同精細化管理的制造業(yè)一樣,早會、晚會、周會、月會,總結(jié)問題、提醒改進。
……
而無論如何,管理流程的事,說得再多,日常工作的落實才是最重要的。
3、職業(yè)技能,專業(yè)培訓擺脫“低水平重復”
“不要門檻”意味著更低的價值,在人員個人能力上,NLP在逐漸拋棄那些“無門檻”入局的人,尤其是在特定的場景需求下。
例如,這是一個非常簡單的NLP數(shù)據(jù)標注實例:
它的需求可能只有初中語文即可。但是,NLP的數(shù)據(jù)需求早已超過這樣的標注太多。
例如,客服詢問用戶是否購買此商品時,“我要和家人商量一下”、“我會考慮”、“我現(xiàn)在不方便,你一會兒再打過來”,標注人員得準確標注出暫不購買,暫不考慮,拒絕購買或者興趣較大等多種意圖。
一方面,這依賴于平臺進行的場景深挖,這也是為什么云測數(shù)據(jù)智能客服單個場景的意圖標注就分為10-20個大類、上百個子類,根據(jù)業(yè)務需求可能還會有進一步的標注細分,如此數(shù)據(jù)標注可以更細化、直達需求。
另一方面,這繞不開人員能力的持續(xù)培訓,把“干體力”的標注工人轉(zhuǎn)化成懂一些專業(yè)的業(yè)務人員,典型的如云測數(shù)據(jù)在金融服務領域通過幾個月的專業(yè)培訓,培養(yǎng)出銷售人員視角去揣測用戶話語中的意圖。
舉例來看,在客服溝通中,用戶回饋“我在開車”這短短的一個語料數(shù)據(jù),可能需要標記出“有車一族”、“司機”、“沒有明顯拒絕”、“可能有興趣”等多個標注給NLP算法,按云測數(shù)據(jù)自己的說法,其培訓達到的目標,是讓標注員工達到成為專業(yè)員工的水準。
顯然,在NLP標注數(shù)據(jù)的初期階段將各大金融機構(gòu)的AI客服機器人訓練到大致相當?shù)某跫壵J知智能水平后,再進行提升、提高銷售轉(zhuǎn)化或者服務滿意度,都需要質(zhì)量更高、針對特定需求更強的NLP標注數(shù)據(jù)。
值得一提的是,在NLP領域不是所有標注都能通過人員培訓來解決,醫(yī)療、法律等過于專業(yè)的領域可能還是依賴專家標注(邀請醫(yī)生、律師等參與標注),那是一個更復雜的故事了。
4、工具使用,持續(xù)加碼“便捷化”
工欲善其事必先利其器,NLP的標注雖然不像CV有很多空間維度的數(shù)據(jù)需求,但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。
這方面,巨頭的腳步更早,在國外,Google Fluid Annotation一度是NLP標注“最好使”的工具,國內(nèi),大廠和專業(yè)平臺的工具也被廣泛使用,云測數(shù)據(jù)在工具上的創(chuàng)新優(yōu)勢很明顯。
總體而言,標注工具適合自己的才是最好的。這種根據(jù)定制化需求開發(fā)貼合實際需要的數(shù)據(jù)工具對場景化數(shù)據(jù)的生產(chǎn),發(fā)揮著重要作用。
無論如何,持續(xù)加碼“便捷化”,是一個不會停止的過程。
NLP數(shù)據(jù)產(chǎn)業(yè)的機會,將會是誰坐莊?
在AI領域,雖然有大廠走在前列,但市場并沒有被巨頭壟斷,中型AI平臺也常常嶄露頭角成為主角。以AI數(shù)據(jù)服務領域為例,像云測數(shù)據(jù)這種專注于企業(yè)服務的第三方獨立平臺,以客戶為中心的企業(yè)基因,一直貫穿在數(shù)據(jù)交付的始終。
一個典型的表現(xiàn)是,高精確度的NLP數(shù)據(jù)需要以企業(yè)服務的心態(tài)與客戶仔細對接需求,例如,用戶需求的場景是什么,如果是訂票,AI問答應該主要導向訂票,對應的NLP數(shù)據(jù)也要往這個方向去標注。
這一過程中需要數(shù)據(jù)服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業(yè)。大廠偏重于技術架構(gòu)、前沿技術開發(fā)、云服務器中心大規(guī)模并發(fā)能力等建設,很難俯下身好好完成這件事,這時候,AI數(shù)據(jù)專業(yè)化平臺更有優(yōu)勢。
此外,影響競爭格局走向的還有數(shù)據(jù)服務的安全性。
在數(shù)據(jù)采集與標注行業(yè),復制一份數(shù)據(jù)在技術上非常簡單,也能節(jié)省大量的人力和運營成本,但給客戶帶來的損失卻不?。ㄓ绕涫潜桓偁帉κ帜玫剑?,保證數(shù)據(jù)隱私性和安全性,在AI激烈的競爭環(huán)境下幾乎成為某些客戶的首要決策標準。
總而言之,高專業(yè)度、高精準度、高效率、強安全才能贏得AI數(shù)據(jù)客戶尤其是NLP數(shù)據(jù)客戶的選擇,不論巨頭還是AI數(shù)據(jù)專業(yè)化平臺在行業(yè)爆發(fā)式增長的關口都在努力,落實和推進了諸多動作。NLP數(shù)據(jù)產(chǎn)業(yè)正處在藍海,一個不會由巨頭坐莊的藍海。
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點,未經(jīng)授權,任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復制或建立鏡像。
部分圖片來自網(wǎng)絡,且未核實版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
智能相對論(微信ID:aixdlun):
?AI產(chǎn)業(yè)新媒體;
?今日頭條青云計劃獲獎者TOP10;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。