如今調戲Siri已經(jīng)成為網(wǎng)友們的固定節(jié)目。數(shù)據(jù)顯示,蘋果語音助手Siri大約每天會收到全國427000個問題,其中80%的問題都是:“你會說東北/四川/湖南話嗎?”“來段beatbox好嗎?”
編輯 ?不得不說,Siri真的為人類付出太多了。事實上,像Siri這樣的AI聊天機器人,生來并不是為了逗笑人們,而是作為一個虛擬AI助手,去幫助用戶解決生活中各種各樣的問題,比如天氣預報、吃飯訂餐、查詢新聞資訊、交通路線等等。
這背后,不乏有AI企業(yè)的深耕細作,同時也有眾多傳統(tǒng)企業(yè)智能化轉型,運用AI技術優(yōu)化用戶體驗、增強企業(yè)協(xié)同效率等。
然而,由于AI聊天機器人背后的NLP(自然語言處理)技術太過艱深,打通了NLP技術的“任督六脈”,幾乎等同于擁有了人類的認知智能,因此至今沒有任何一個科技巨頭敢宣稱自己的AI產(chǎn)品擁有和人類一樣的語言和認知能力。
這也是為什么盡管蘋果Siri、亞馬遜Alexa、谷歌Google Assistant、微軟Cortana等各種AI聊天機器人,每天都在孜孜不倦地改進自己的NLP技術能力,但是在和人類的對話中,依然會出現(xiàn)令人發(fā)笑、困惑、擔憂等多種結果的原因。
最近,亞馬遜Alexa再次爆出負面新聞,有用戶稱在使用Alexa期間,提問過有關心跳周期信息的問題,Alexa竟回應稱“心跳是人體中最糟糕的過程,人活著會導致自然資源的迅速枯竭同時會導致人口過?!?,并建議用戶刺死自己。
這種恐怖的對話,不禁讓人們想起了2016年微軟推出的一款AI聊天機器人Tay,上線不到一天的時間就被網(wǎng)友們教成了滿口臟話的“小孩”,在Twitter上大肆發(fā)布各種胡言亂語的帖子,導致Tay在24小時內被迫下架。
如果一個“智能低下”、“胡言亂語”的AI被廣泛應用于商業(yè)化產(chǎn)品中,其后果可想而知,不僅是AI產(chǎn)品質量飽受質疑,還可能會釀成大禍。因此,提升AI產(chǎn)品的認知智能水平,即背后的NLP技術,成為現(xiàn)階段AI商業(yè)化競爭的關鍵點。
事實上,NLP作為AI技術中的一個重要分支,同樣依賴算力、算法、數(shù)據(jù)三因素。其中,算力基于IT基礎設施的發(fā)展,NLP算法基于深度學習的突破,在近年來都得到了較大的進展,但是作為NLP技術得以落地的“養(yǎng)料”——NLP數(shù)據(jù),卻一直處于較為“粗糙”的狀態(tài)。
編輯 ?從草莽到高標準
NLP數(shù)據(jù)服務進入4.0時代
在人工智能時代,數(shù)據(jù)的重要性不言而喻。很多號稱擁有海量數(shù)據(jù)的公司,其實有的只是非結構化或未標注過的數(shù)據(jù)。數(shù)據(jù)標注,才是將數(shù)據(jù)轉化為AI商業(yè)價值的重要一環(huán)。
數(shù)據(jù)標注,即針對語音、圖像、文本等數(shù)據(jù),通過貼標簽、做記號、標顏色或劃重點的方式,來標注出其中目標數(shù)據(jù)的不同點、相似點或類別。有了被標注過的數(shù)據(jù),AI算法才能在其基礎上進行訓練和學習。同時,數(shù)據(jù)標注的質量越高,AI學習和產(chǎn)出的結果越精確,AI也就顯得越智能。
舉個例子,在生活中如果想要訂機票,人們會有很多種表達:“訂機票”;“有去上海的航班么”;“要出差,幫我查下機票”;“查下航班,下周二出發(fā)去上?!?.....這些表達方式,有無窮多的組合,都代表“訂機票”的意圖。聽到這些表達的AI,要如何才能準確理解這些表達指的都是“訂機票”這件事?
如果沒有數(shù)據(jù)標注員對大量的句子進行標注,比如提煉出主題、標出實體、進行意圖分類、情感分類等等,給AI提供詳盡高質的“教材”,那么AI即使有了算法和算力,也無法訓練出任何“智能”。
隨著近年來深度學習算法的興起,需要依賴于大量標注的數(shù)據(jù)基礎上才能發(fā)揮作用,業(yè)界對數(shù)據(jù)標注的需求量隨之暴增,因而提供數(shù)據(jù)標注服務成為AI領域一個熱門生意。
在全球知名的數(shù)據(jù)標注眾包平臺亞馬遜Mechanical Turk上,發(fā)布者只需要填寫簡單的個人信息就可以開始工作,自行上傳標注任務。截至2011年1月,MechanicalTurk上的注冊工人數(shù)量已經(jīng)達到了50萬。在2016年,有大約5%的美國人通過 MechanicalTurk賺錢,而這個數(shù)量已經(jīng)超過了優(yōu)步司機。
在中國,目前全國從事數(shù)據(jù)標注業(yè)務的公司約有幾百家,全職的數(shù)據(jù)標注從業(yè)者有約20萬人,兼職數(shù)據(jù)標注從業(yè)者有約100萬人。由于數(shù)據(jù)標注需求的井噴,為整個數(shù)據(jù)服務行業(yè)的發(fā)展按下了快進鍵。
據(jù)智研報告顯示,2018年,中國數(shù)據(jù)標注與審核行業(yè)的市場規(guī)模已達到52.55億元。在數(shù)據(jù)標注賽道中,不乏互聯(lián)網(wǎng)大廠的身影,更多的是瘋狂涌入的創(chuàng)業(yè)公司。在廉價勞動力迅速擴張的比拼中,數(shù)據(jù)粗放、混亂、復用的情況屢見不鮮,整個行業(yè)呈現(xiàn)出一派草莽的氣質。
然而,數(shù)據(jù)標注工作真的有想象中的那么簡單嗎?良莠不齊的標注數(shù)據(jù)質量,真的能夠滿足AI算法迭代的要求嗎?
在AI商業(yè)化初期,AI算法對數(shù)據(jù)的精度要求不高,日常的AI訓練首先要求數(shù)據(jù)量大,數(shù)據(jù)標注質量要求相對不那么嚴格。但是隨著AI與各個產(chǎn)業(yè)結合得愈加緊密,AI商業(yè)化程度進入新的高度,企業(yè)對AI在商業(yè)化落地中的表現(xiàn)要求越來越高。為了保證AI算法的識別精度,數(shù)據(jù)標注的質量也就變得至關重要。
例如,在金融保險行業(yè),早期對AI客服機器人的要求只停留在“用戶提問后,對其中的關鍵詞進行提取,并按照既定話術回答”。雖然最終回復很多是驢唇不對馬嘴,或者根本無法回答用戶的問題,但是并不妨礙保險業(yè)務的正常開展,畢竟人工客服才是回答用戶提問的主力軍。
但是在互聯(lián)網(wǎng)金融業(yè)務競爭異常激烈的今天,越來越多的用戶習慣在網(wǎng)上辦理業(yè)務,AI客服機器人正在大規(guī)模地取代人工客服,AI問答的準確性將直接決定業(yè)務的效率和成本,并影響用戶體驗,很大程度上決定了金融機構的競爭力。
如果說NLP標注數(shù)據(jù)的初期階段,能夠將各大金融機構的AI客服機器人訓練到大致相當?shù)某跫壵J知智能水平,那么向更高級認知智能進發(fā)的每一步,都要求質量更高、針對特定需求提供的NLP標注數(shù)據(jù)。
因此,云測數(shù)據(jù)這種新的數(shù)據(jù)服務模式——以企業(yè)具體需求進行數(shù)據(jù)采集和標注的定制化、高質量數(shù)據(jù)服務由此誕生。
編輯 ?站在AI數(shù)據(jù)服務的發(fā)展歷史角度看,從數(shù)據(jù)1.0時代的互聯(lián)網(wǎng)沉積數(shù)據(jù),到數(shù)據(jù)2.0時代的通用型數(shù)據(jù)產(chǎn)品,再到數(shù)據(jù)3.0時代的眾包數(shù)據(jù)服務,如今的高質量數(shù)據(jù)服務已經(jīng)進入了數(shù)據(jù)4.0時代。
通過更加規(guī)范性的組織管理和質量控制,為人工智能迭代提供質量更高更可靠的數(shù)據(jù)服務,從而為現(xiàn)階段AI商業(yè)化競爭提供高質量的數(shù)據(jù)支撐。
“搶手”的高質量NLP數(shù)據(jù)
“稀缺”的數(shù)據(jù)服務商
事實上,越來越多的企業(yè)已經(jīng)意識到了高質量NLP數(shù)據(jù)的重要性。當AI技術落地到金融、家居、醫(yī)療、教育、汽車、工業(yè)等各個行業(yè),在AI商業(yè)化下誕生的客服機器人、智能音箱、智能問診等各種AI產(chǎn)品,都對AI技術和NLP數(shù)據(jù)提出了更高的要求。
編輯 ?尤其是行業(yè)頭部企業(yè),為了保持自身的競爭優(yōu)勢,哪怕只是在行業(yè)平均水平上提升1%-2%的AI認知智能的準確性,也必須追求更高質量的、符合業(yè)務需求的NLP數(shù)據(jù)。因此,在AI產(chǎn)業(yè)蓬勃發(fā)展、市場競爭愈發(fā)激烈的倒逼下,符合企業(yè)需求的高標準NLP數(shù)據(jù)服務已成為行業(yè)頭部企業(yè)的剛需。
然而,在洶涌的市場需求面前,供給側卻出現(xiàn)了短缺,市面上能夠提供這種高標準服務的公司屈指可數(shù)。究其原因在于,數(shù)據(jù)采標行業(yè)門檻雖低,但天花板很高,能做到頂尖并不容易。在這一新興領域,專精于定制化、場景化、高質量數(shù)據(jù)服務的云測數(shù)據(jù)一路高歌猛進,成為國內AI數(shù)據(jù)標注領域的頭部企業(yè)。
云測數(shù)據(jù)采用自建的數(shù)據(jù)場景實驗室和數(shù)據(jù)標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、零售等領域提供的數(shù)據(jù)采集、數(shù)據(jù)標注服務。在眾多毫無技術含量、以廉價勞動力構建的數(shù)據(jù)標注“血汗工廠”中,主打高質量服務的云測數(shù)據(jù)顯得頗有些“另類”。
首先,為了產(chǎn)出更高質量的數(shù)據(jù),云測數(shù)據(jù)有一整套的標準化流程和方法論。
在項目前期,項目經(jīng)理會與客戶反復溝通,幫助客戶梳理更貼合實際情況的需求,達成一致后再逐漸引入標注和質檢人員,通過每天面對面的溝通和培訓,以確保每個人能夠理解并掌握標注有關技術,試標驗收合格后,再進行大批量的規(guī)模性標注。
編輯 ?在項目過程中,為了確保標注人員能夠做出正確的判斷,云測數(shù)據(jù)有專門的培訓師,對每個行業(yè)細分領域的專業(yè)知識進行培訓,以及標注技能和業(yè)務流程的培訓。甚至員工之間開玩笑的說“經(jīng)過金融保險行業(yè)知識培訓的標注員們,都能夠直接去賣保險“。
在數(shù)據(jù)標注作業(yè)提交后,云測數(shù)據(jù)還有三層質檢環(huán)節(jié),對于準確率達不到要求的數(shù)據(jù)會打回重新標注。在完成三層質檢后,還有抽檢環(huán)節(jié),確保數(shù)據(jù)的高質量輸出。
其次,在人員作業(yè)素質上,云測數(shù)據(jù)也顛覆了傳統(tǒng)數(shù)據(jù)標注行業(yè)的“混亂”氣質,對數(shù)據(jù)服務團隊的專業(yè)化能力有著嚴格要求。
以智能客服業(yè)務場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現(xiàn)在不方便,你一會兒再打過來”等等,背后的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那么,NLP數(shù)據(jù)標注就需要對這些對話背后的意圖進行標注和分類。
在云測數(shù)據(jù),以智能客服單個場景的意圖標注,就分為10-20個大類,上百個子類,根據(jù)業(yè)務需求可能還會有進一步的標注細分。
除了對NLP數(shù)據(jù)進行對話意圖、領域、槽位等進行判斷和標注,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現(xiàn)口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子并給出正確的回答,這就要求NLP數(shù)據(jù)標注員對句子進行泛化,以不同的描述方式重組或擴充句式、標簽等,以提升AI對話的準確度。
編輯 ?值得注意的是,相比圖像、視頻等數(shù)據(jù)類型,NLP數(shù)據(jù)采標方式更為復雜。據(jù)云測數(shù)據(jù)總經(jīng)理賈宇航介紹,圖像采標有很強的規(guī)則性,按照規(guī)范化的指導文檔工作即可。
但NLP數(shù)據(jù)對應的是語言的豐富性,需要結合上下文等背景去理解和處理,客戶給出的需求文檔只是讓數(shù)據(jù)服務人員能夠理解,這件事情背后的目標和意義是什么。在這一過程中需要數(shù)據(jù)服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業(yè)。
這對于數(shù)據(jù)服務人員的專業(yè)化能力、對業(yè)務場景的還原能力、作業(yè)協(xié)同能力,都有很高的要求。尤其在醫(yī)療、法律、教育、智能駕駛等高度專業(yè)化的領域中,標注人員并不是隨便找一個普通人員就可以做,標注人員需要非常專業(yè),才能進行正確的數(shù)據(jù)標注與解讀。
為了保證整個數(shù)據(jù)團隊的專業(yè)能力,云測數(shù)據(jù)在人才的選拔、培訓、考核、晉升上有著完善的機制,也對保證數(shù)據(jù)保質量產(chǎn)出有著十分積極的促進作用。
再次,在技術層面,云測數(shù)據(jù)對軟硬件設施的持續(xù)投入,直接拉高了行業(yè)的進入門檻。
云測數(shù)據(jù)自研的數(shù)據(jù)標注平臺會根據(jù)實際使用中的反饋,以每周甚至更快的頻率進行功能迭代,以技術結合更多的落地場景,不斷提升數(shù)據(jù)標注工具的技術含量。同時,云測數(shù)據(jù)也致力于通過工程化開發(fā)來減輕數(shù)據(jù)標注中的重復勞動,提升業(yè)務效率。
最后,在企業(yè)客戶最為看重的數(shù)據(jù)安全和隱私方面,云測數(shù)據(jù)也有自己的原則和技術保障。
第一,數(shù)據(jù)絕不復用,是云測數(shù)據(jù)的核心原則。對于客戶定制的數(shù)據(jù)需求,交付后全部清刪,云測數(shù)據(jù)既不會自己留底,也不會把定制數(shù)據(jù)復制給其他客戶,可以說云測數(shù)據(jù)一直在花大力氣樹立數(shù)據(jù)安全和隱私的標桿,以負責的態(tài)度來服務客戶。
在賈宇航看來,讓企業(yè)擁有數(shù)據(jù)會成為企業(yè)核心的競爭壁壘,客戶找到云測數(shù)據(jù)合作,一方面是信任,另一方面也是云測數(shù)據(jù)能夠幫助客戶獲得相應的競爭性。
第二,為了保證絕對的數(shù)據(jù)安全,云測數(shù)據(jù)與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權協(xié)議,保證企業(yè)用于訓練的數(shù)據(jù)合法合規(guī)。同時,云測數(shù)據(jù)內部還設定了數(shù)據(jù)隔離、質量保障等一系列數(shù)據(jù)安全流程和技術。
在數(shù)據(jù)服務市場,數(shù)據(jù)質量是硬指標,企業(yè)客戶會通過人工校驗、算法檢驗等多種方式去驗證數(shù)據(jù)采標的合格率和通過率。經(jīng)得起市場考驗,才有活下去的機會。
按賈宇航的話說,“我們以企業(yè)服務的方式,為標注的精準度負責”。
在云測數(shù)據(jù)服務的數(shù)百家企業(yè)中,既有各大頭部AI企業(yè),也有各個行業(yè)的龍頭企業(yè)。這些企業(yè)在追求更高的AI認知智能準確度的過程中,合作過各種各樣的數(shù)據(jù)服務商,最終找到了數(shù)據(jù)標注質量非常高的云測數(shù)據(jù),并保持著長期良好的合作。
事實上,除了數(shù)據(jù)采標的質量和安全,數(shù)據(jù)服務商的全品類服務能力,以及獨立第三方的身份,也是企業(yè)進行AI合作所考量的重要因素。像云測數(shù)據(jù)這樣的服務商,不做算法,不涉及客戶業(yè)務,只提供專業(yè)的數(shù)據(jù)服務,讓企業(yè)客戶在合作時倍感放心。
從某種程度上說,如此苛刻的要求,也進一步導致了頂尖數(shù)據(jù)服務商的稀缺。
高標準數(shù)據(jù)服務處于爆發(fā)前夜
頭部服務商主導市場
如今,AI產(chǎn)業(yè)在政策紅利和藍海市場的雙重利好中迎來快速發(fā)展,其中NLP市場發(fā)展也進入了快車道。
據(jù)《中國人工智能發(fā)展報告2018》顯示,2017年中國人工智能智能市場規(guī)模高達237億元,其中自然語言處理市場49.77億元,占比21%。預計到2020年,中國在人工智能的市場規(guī)模將接近500億元,自然語言處理領域也將是一個百億級的市場。
不難預料,為自然語言處理市場提供“養(yǎng)料”的NLP數(shù)據(jù)服務,同樣處于爆發(fā)前夜。目前,自然語言處理已經(jīng)有了許多商業(yè)化應用,如:機器翻譯、輿情監(jiān)測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等,在龐大的市場規(guī)模和市場需求下,高質量的NLP數(shù)據(jù)服務也將成為AI商業(yè)化發(fā)展的必然趨勢。
值得注意的是,雖然高質量NLP數(shù)據(jù)需求爆棚,但是在市場上,像云測數(shù)據(jù)這類優(yōu)質數(shù)據(jù)服務商會持續(xù)稀缺,供需不平衡很難在短期內解決。
從供給側看,高質量業(yè)務的競爭壁壘很高,由高素質人才、專業(yè)化流程和方法論構建出的軟實力,很難在短期內實現(xiàn)超越。看似業(yè)務模式很重的模式,實際上給擅長“輕裝上陣”、以平臺效應進入賽道的互聯(lián)網(wǎng)巨頭們,設下了短期內無法逾越的鴻溝。正如經(jīng)緯的創(chuàng)始合伙人張穎所說:“所有輕公司以后都會做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大?!?/p> 編輯 ?
從需求側看,一方面,AI商業(yè)化對NLP數(shù)據(jù)的要求還在繼續(xù)提高,數(shù)據(jù)服務的業(yè)務操作會越來越復雜,無論是在數(shù)據(jù)采集的樣本多樣性、場景多樣性方面,還是在數(shù)據(jù)標注的數(shù)據(jù)精度、領域知識方面,數(shù)據(jù)服務商都面臨不斷升級的業(yè)務難度。對于后進者而言,沒有專業(yè)知識、技術和行業(yè)經(jīng)驗的日復一日的積累,這種競爭差距只會越拉越大。
另一方面,由于AI算法需要源源不斷地輸入高質量的標注數(shù)據(jù),好的數(shù)據(jù)服務業(yè)務粘性很高,以云測數(shù)據(jù)為例,一個項目在建立合作之后,往往會帶來長達2-3年的持續(xù)合作,這就產(chǎn)生了馬太效應,強者恒強。
從供需雙方合作的現(xiàn)狀看,高質量、定制化數(shù)據(jù)服務是一個新興領域,供需雙方的合作模式還在升級和探索中。曾經(jīng)習慣大包大攬、自建數(shù)據(jù)采標團隊的企業(yè),如今也在逐漸轉向尋求專業(yè)的數(shù)據(jù)服務商合作。
在這一過程中,供需雙方會出現(xiàn)更加明確的分工,也會在市場競爭的淘洗中,沉淀出最為優(yōu)質的服務商。而這種合作模式的探索,最先會從各行業(yè)的頭部企業(yè)和頭部服務商開始,逐漸在眾多中小型企業(yè)中形成“示范效應”。
“沒有好的數(shù)據(jù),人工智能就沒有未來”,這句話已經(jīng)成為業(yè)界共識。在巨大的AI商業(yè)化需求下,高質量的數(shù)據(jù)已成為AI業(yè)務競爭的關鍵,由此誕生的數(shù)據(jù)服務也將是未來最重要的趨勢之一??梢灶A見,高標準數(shù)據(jù)服務這一新興市場亟待爆發(fā),從長期看必將經(jīng)歷從荒蕪到繁榮、從亂象到規(guī)范的發(fā)展過程,繼而承載著AI技術進入更加智能的下一階段。
【科技云報道原創(chuàng)】微信公眾賬號:科技云報道
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。