原標(biāo)題:行業(yè)最高質(zhì)量AI數(shù)據(jù)如何煉成?揭秘云測數(shù)據(jù)的取勝之法
文|葉遠(yuǎn)風(fēng)
來源|智能相對論(aixdlun)
AI加速落地的大背景下,作為人工智能產(chǎn)業(yè)落地重要的環(huán)節(jié),AI數(shù)據(jù)標(biāo)注越來越受到業(yè)界的關(guān)注,并在發(fā)生著很大的變化。
不久前的服貿(mào)會上,數(shù)據(jù)標(biāo)注領(lǐng)域的頭部企業(yè)云測數(shù)據(jù)首次對外發(fā)布了一項標(biāo)準(zhǔn),其AI數(shù)據(jù)項目的最高交付精準(zhǔn)度達到了99.99%,這是一個新的行業(yè)紀(jì)錄。對此,有自媒體“曾響鈴”評論認(rèn)為,AI數(shù)據(jù)標(biāo)注已經(jīng)由“勞動密集”進入“技能密集”時代。
在AI數(shù)據(jù)產(chǎn)業(yè)中,數(shù)據(jù)精準(zhǔn)度=驗收合格數(shù)量/全部數(shù)量,這意味極高的精準(zhǔn)度不僅要滿足一些客觀標(biāo)準(zhǔn),還需要與AI項目方的需求深度契合,通過基于需求的驗收過程。
事實上,對AI數(shù)據(jù)標(biāo)注這種與制造業(yè)在很多地方相似的產(chǎn)業(yè)而言,更高的精準(zhǔn)度的打造過程,就如同制造業(yè)的“精益制造”一樣,在多個方面有著發(fā)展方式的契合,只不過一個交付數(shù)據(jù)服務(wù),一個產(chǎn)出實體產(chǎn)品。
這種契合,從行業(yè)頭部企業(yè)的動作看,包括四個方面。
業(yè)務(wù)平臺:應(yīng)對復(fù)雜的AI數(shù)據(jù)交接和作業(yè),出現(xiàn)線上自動化“流水線”
制造業(yè)的精益制造首先是“流水線”的自動化、智能化升級,引入更多精密的工具或機械,為產(chǎn)品的精益打磨提供了生產(chǎn)環(huán)境基礎(chǔ)。
數(shù)據(jù)標(biāo)注也類似,粗放式的業(yè)務(wù)平臺越來越無法承接復(fù)雜的AI數(shù)據(jù)交接和作業(yè),在這種背景下,線上的自動化“流水線”開始出現(xiàn)。
以往,數(shù)據(jù)標(biāo)注過程的“線下”痕跡濃厚,尤其是數(shù)據(jù)導(dǎo)入和導(dǎo)出,硬碟拷貝、交接的“原始模式”不時出現(xiàn)。
為了提升效率和安全,做到短時間無縫對接,以云測數(shù)據(jù)為代表的企業(yè)探索出線上“流水線”業(yè)務(wù)平臺化模式。具體來說,就是根據(jù)AI企業(yè)的自身數(shù)據(jù)處理流程,完成標(biāo)準(zhǔn)化API接口的流程嵌入,數(shù)據(jù)在線上接入,完成作業(yè)后從線上輸出,中間有模板化的任務(wù)創(chuàng)建與責(zé)任安排,支持不同標(biāo)注類型和標(biāo)注方法。
這個過程,對應(yīng)到制造業(yè),其實就是“物料進入、找到眾多產(chǎn)線中合適的那一條并安排好生產(chǎn)工人、產(chǎn)品輸出”的過程。在線上,數(shù)據(jù)標(biāo)注已經(jīng)做到了數(shù)據(jù)進入、標(biāo)注、交付的云上無縫連接過程。
這其中,對數(shù)據(jù)標(biāo)注“精益制造”價值最為明顯的可能是“生產(chǎn)工具”的優(yōu)化,工具能力的提升,大幅提升了數(shù)據(jù)標(biāo)注的效率和精準(zhǔn)度,這就好比流水線上功能豐富的自動化機械臂能夠幫助企業(yè)大大提升效率和質(zhì)量一樣。
以云測數(shù)據(jù)為代表的企業(yè)開發(fā)的工具為案例,目前來看,工具對數(shù)據(jù)標(biāo)注的價值有這三個體現(xiàn):
一是直接的操作輔助,例如對人臉進行26點、54點、96點、206點的人臉關(guān)鍵點標(biāo)注、貼合度在3像素以內(nèi)的特定任務(wù)關(guān)鍵點追蹤,這使得標(biāo)注員的操作能夠更加精細(xì)化,且擁有不錯的效率。
二是特殊數(shù)據(jù)的操作輔助,例如自動駕駛中激光雷達形成的3D點云數(shù)據(jù)不同于攝像頭形成的2D圖像數(shù)據(jù),標(biāo)注起來更有難度也更可能出現(xiàn)偏差,這時候,融合標(biāo)注工具(把3D點云數(shù)據(jù)和2D圖像數(shù)據(jù)結(jié)合在一起對照)的價值就體現(xiàn)出來。
三是數(shù)據(jù)標(biāo)注的糾錯保障,這類似于“精益制造”中人工質(zhì)檢前的機器自動質(zhì)檢,在數(shù)據(jù)標(biāo)注過程中,工具根據(jù)AI項目需求設(shè)定查錯規(guī)則,保障標(biāo)注的精準(zhǔn)度(例如,一個三米高的物體標(biāo)注為人體就錯了)
當(dāng)然,工具質(zhì)檢只是一種輔助,在數(shù)據(jù)標(biāo)注的“精益制造”過程中,人工質(zhì)檢(抽檢)同樣必不可少。云測數(shù)據(jù)不僅在標(biāo)注流程上實現(xiàn)了正規(guī)化和科學(xué)化,設(shè)計了從創(chuàng)建任務(wù)、分配任務(wù)、標(biāo)注流轉(zhuǎn),還完善了了從質(zhì)檢/抽檢環(huán)節(jié)到最后的驗收的管理流程。
數(shù)據(jù)作業(yè):應(yīng)對AI落地的深度需求,出現(xiàn)“數(shù)據(jù)工藝”般的精細(xì)化作業(yè)
生產(chǎn)工藝是“精益制造”的核心之一,工藝越好,產(chǎn)品往往更為優(yōu)質(zhì),也更掌握市場的話語權(quán)。在“流水線”生產(chǎn)環(huán)境基礎(chǔ)上,隨著AI落地需求的加深,AI數(shù)據(jù)標(biāo)注開始出現(xiàn)可以稱之為“數(shù)據(jù)工藝”的類似精細(xì)化作業(yè)過程,99.99%的精準(zhǔn)度本身就是“數(shù)據(jù)工藝”的結(jié)果。
在云測數(shù)據(jù)的日常作業(yè)中,可以發(fā)現(xiàn)很多這種“數(shù)據(jù)工藝”般的做法,例如更豐富的數(shù)據(jù)標(biāo)注類型,“線段”這種看起來簡單的標(biāo)注對象也分出了折線、曲線、貝塞爾曲線等。
此外,如同制造業(yè)不斷積累工藝經(jīng)驗,逐步提升工藝水準(zhǔn)生產(chǎn)出更高等級的產(chǎn)品一樣,數(shù)據(jù)標(biāo)注也存在一個經(jīng)驗積累的過程來提升“數(shù)據(jù)工藝”水準(zhǔn),例如,工業(yè)中的大量看起來差不多的零件的標(biāo)注,做到更細(xì)節(jié)層面才能區(qū)分出兩個型號類似的螺絲;零售行業(yè)大量相似的SKU,需要從品牌、標(biāo)簽等多種細(xì)化角度來標(biāo)注,幫助算法識別。
總的看來,對AI數(shù)據(jù)的復(fù)雜需求是促使數(shù)據(jù)標(biāo)注朝著“數(shù)據(jù)工藝”方向發(fā)展的直接原因。
當(dāng)下的AI數(shù)據(jù)呈現(xiàn)三個特征,一是由于AI產(chǎn)品落地場景的復(fù)雜性導(dǎo)致數(shù)據(jù)場景需求的多元化,如光線強度、拍攝角度、噪聲要求、室內(nèi)室外等;二是同類數(shù)據(jù)表現(xiàn)出樣本多樣性,僅就聲音的數(shù)據(jù),可能就包括年齡、性別、口音等差別;三是針對同一應(yīng)用目標(biāo)的數(shù)據(jù)多維化,例如智能駕駛就可能同時需要攝像頭、激光雷達、超聲波雷達等不同傳感器產(chǎn)生的數(shù)據(jù)。
很顯然,在這種背景下,AI發(fā)展初期那種直接應(yīng)用或者購買成品“數(shù)據(jù)集”的做法行不通了,它們可以幫助算法快速成型,但卻難以支撐更多樣化的AI落地需求。
于是,“數(shù)據(jù)工藝”般的精細(xì)化作業(yè)對數(shù)據(jù)標(biāo)注的需求自然而然就超出了單純數(shù)據(jù)標(biāo)注的業(yè)務(wù)范疇,必然要整合上游數(shù)據(jù)采集這個關(guān)鍵環(huán)節(jié)。可以看到,以云測數(shù)據(jù)為代表的企業(yè)都在大力提升場景化數(shù)據(jù)采集的能力。幫助客戶還原落地場景所需要的AI數(shù)據(jù),從源頭保證AI數(shù)據(jù)的質(zhì)量,才能更好的應(yīng)用于AI產(chǎn)業(yè)化的深度落地。
或許正因為這樣的原因,可以看到,云測數(shù)據(jù)在發(fā)布了最高項目交付99.99%精準(zhǔn)度的同時,為了貼合實際場景、幫助更多行業(yè)實現(xiàn)“AI產(chǎn)品更快更好的落地”, 云測數(shù)據(jù)結(jié)合自身的服務(wù)能力積累和行業(yè)專業(yè)性,還推出了智慧城市、智能家居、智能駕駛、智慧金融四個場景下的“AI訓(xùn)練數(shù)據(jù)服務(wù)解決方案”。
在這些整合了數(shù)據(jù)采集與標(biāo)注的場景AI數(shù)據(jù)解決方案中,可以發(fā)現(xiàn)更明顯的“數(shù)據(jù)工藝”痕跡。
例如,在戶外場景中,攝像頭囊括了大量的行人、機動車、自行車等道路場景數(shù)據(jù),但智慧城市的AI應(yīng)用可能需要識別人流檢測、突發(fā)事件等長尾場景數(shù)據(jù)。
在云測數(shù)據(jù)的智慧城市解決方案中,就通過行業(yè)首創(chuàng)的數(shù)據(jù)場景實驗室來還原搭建真實場景,用于采集長尾場景數(shù)據(jù),例如多種不同光線下的人員檢測、危險動作檢測等。
類似的還有智能駕駛場景。智能駕駛的車外環(huán)境感知需要大量真實場景數(shù)據(jù)用于算法訓(xùn)練,為了確保行駛安全,需要覆蓋非常多的長尾場景數(shù)據(jù),例如舉傘的行人、突然出現(xiàn)的寵物等,疫情發(fā)生后,帶口罩的行人也是另一種車外環(huán)境感知所需要的“場景AI數(shù)據(jù)”。
從細(xì)節(jié)上滿足更復(fù)雜深度的AI數(shù)據(jù)需求,提供獨特的、無法替代的AI數(shù)據(jù)獲取能力,將幫助數(shù)據(jù)標(biāo)注持續(xù)獲得更高的產(chǎn)業(yè)地位。
人力建設(shè):應(yīng)對高精細(xì)化的“數(shù)據(jù)工藝”,出現(xiàn)專業(yè)的“人工智能訓(xùn)練師”
“流水線”的生產(chǎn)基礎(chǔ)加上更高的生產(chǎn)工藝之后,“精益制造”考驗的還有產(chǎn)業(yè)工人是否能將工藝實現(xiàn)的能力,在產(chǎn)業(yè)升級的浪潮下,產(chǎn)業(yè)工人的素質(zhì)成為“精益制造”的關(guān)鍵因素之一。
映射到數(shù)據(jù)標(biāo)注,為了應(yīng)對高精細(xì)化的“數(shù)據(jù)工藝”,專業(yè)的“人工智能訓(xùn)練師”開始出現(xiàn),這表現(xiàn)在三個方面。
一是體系化的人才培訓(xùn),整體技能專業(yè)性、領(lǐng)域知識專業(yè)性、人員素養(yǎng)等都在提升。
以云測數(shù)據(jù)為例,云測數(shù)據(jù)不僅提供崗前培訓(xùn),還帶有員工技能培訓(xùn)、職能培訓(xùn)、行業(yè)領(lǐng)域知識、責(zé)任培訓(xùn)、標(biāo)注內(nèi)容的培訓(xùn),以及一對一的持續(xù)交流來提升員工的能力;與此同時,配備在線化、體系化的打分系統(tǒng)來評估員工的能力。
過去,數(shù)據(jù)標(biāo)注那種隨便在街上、學(xué)校里拉一些人,只要認(rèn)得圖片、懂基本的語法拼寫就開始干活的做法,已經(jīng)不再具備任何競爭力了。
二是匹配不同需求的“人才梯隊”開始出現(xiàn)。
這一點,如同“精益制造”里更復(fù)雜產(chǎn)品配以技藝手段更高的工人一樣,在數(shù)據(jù)標(biāo)注領(lǐng)域,出現(xiàn)了一些數(shù)據(jù)需求上的分化,倒逼企業(yè)培養(yǎng)某種意義上的“人才梯隊”。
典型的如醫(yī)療、法律、金融、家居等高度專業(yè)化的領(lǐng)域中,不論是CV還是NLP,人工智能訓(xùn)練師需要非常專業(yè),才能進行正確的數(shù)據(jù)標(biāo)注與解讀,這甚至不是光有培訓(xùn)就能解決的。云測數(shù)據(jù)在NLP領(lǐng)域就吸納了一些金融及家居行業(yè)的專才來提升對應(yīng)領(lǐng)域的數(shù)據(jù)標(biāo)注能力,這也意味著數(shù)據(jù)標(biāo)注產(chǎn)業(yè)開始對人才來源口徑有了一些要求,不再是泛化的人群。
三是大量的操作細(xì)節(jié)和專業(yè)性不斷疊加。
產(chǎn)業(yè)工人變成“老師傅”,一方面來源于苛刻的工作要求,另一方面來自不斷的專業(yè)經(jīng)驗積累。在數(shù)據(jù)標(biāo)注這里也是如此。
粗放式管理下,傳統(tǒng)數(shù)據(jù)標(biāo)注行業(yè)有一種“混亂”的旗氣質(zhì),草臺班子稀里糊涂完成了大量的數(shù)據(jù)標(biāo)注工作。但現(xiàn)在,高精準(zhǔn)度的大旗下,數(shù)據(jù)服務(wù)團隊的專業(yè)化能力被嚴(yán)格要求,在云測數(shù)據(jù),智能客服單個場景的意圖標(biāo)注就分為10-20個大類、上百個子類(表達同一個意圖,算法面臨的用戶可能有不同的表達方式,故越細(xì)分越好),根據(jù)業(yè)務(wù)需求可能還會有進一步的標(biāo)注細(xì)分。
這倒逼數(shù)據(jù)標(biāo)注員提升對話意圖的判斷能力,需要對句子進行泛化、以不同的描述方式重組或擴充句式、標(biāo)簽(比如,用戶只是單純口誤了,或者夾雜了方言,數(shù)據(jù)都需要標(biāo)注清晰,供AI算法去學(xué)習(xí))。
在整體素質(zhì)不斷提升的基礎(chǔ)上,人工智能訓(xùn)練師呈現(xiàn)出更多樣化的梯度,更多優(yōu)質(zhì)的標(biāo)注人才將脫穎而出。
需求交互:應(yīng)對縱深的項目需求,出現(xiàn)深度交互的專業(yè)化服務(wù)模式
最后,“精益制造”階段的制造業(yè),往往伴隨訂單方與生產(chǎn)方的深度溝通,需求方深度介入生產(chǎn)制造,才能生產(chǎn)出更符合初衷的產(chǎn)品。
這其實是支撐“精益制造”的專業(yè)化服務(wù)模式,在數(shù)據(jù)標(biāo)注領(lǐng)域也是如此。為了明確AI數(shù)據(jù)標(biāo)準(zhǔn),云測數(shù)據(jù)這種追求高精準(zhǔn)度的企業(yè)早已要求項目經(jīng)理與AI項目方在項目開展前反復(fù)溝通需求,配合行業(yè)培訓(xùn)師對標(biāo)注員們進行前期培訓(xùn),并在標(biāo)注作業(yè)過程中保持實時的溝通和反饋。
這種反復(fù)溝通中,涉及到大量影響最終數(shù)據(jù)結(jié)果精準(zhǔn)度的細(xì)節(jié),例如,CV項目中,什么樣的光線要標(biāo)注和定義為“強光線”?不同需求方的理解可能并不一樣。
除了明確數(shù)據(jù)標(biāo)準(zhǔn)的溝通,在作業(yè)方式上,數(shù)據(jù)標(biāo)注現(xiàn)在也更為靈活。
典型的是金融場景中,由于行業(yè)的特殊性,尤其是對數(shù)據(jù)安全的極高要求,數(shù)據(jù)標(biāo)注企業(yè)除了要提供了一套針對金融行業(yè)深度結(jié)合企業(yè)自身業(yè)務(wù)流程的AI數(shù)據(jù)服務(wù)方案,一些時候還必須改變部署與作業(yè)的物理方式,例如云測數(shù)據(jù)提供的私有化部署和駐場作業(yè)服務(wù),在這種服務(wù)方式下,數(shù)據(jù)標(biāo)注“企業(yè)服務(wù)”的本質(zhì)也更明顯了一些。
值得強調(diào)的是,在數(shù)據(jù)隱私安全方面,云測數(shù)據(jù)設(shè)置了一系列嚴(yán)格措施。其中一條核心原則就是數(shù)據(jù)絕不復(fù)用,當(dāng)數(shù)據(jù)合格交付后從不留底,會清毀相關(guān)數(shù)據(jù);其二,所有和云測數(shù)據(jù)進行數(shù)據(jù)采集的用戶都會簽訂數(shù)據(jù)授權(quán)協(xié)議,從來源上確保企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);同時,云測數(shù)據(jù)內(nèi)部還設(shè)定了數(shù)據(jù)隔離、質(zhì)量保障等一系列數(shù)據(jù)安全流程和技術(shù)。
總而言之,AI加速落地催生出更為復(fù)雜的AI數(shù)據(jù)需求,使得本來與制造業(yè)在過程上有些類似的AI數(shù)據(jù)標(biāo)注也走入屬于產(chǎn)業(yè)自身的“精益制造”過程,在生產(chǎn)環(huán)境、作業(yè)標(biāo)準(zhǔn)、人才建設(shè)以及服務(wù)模式上都有了很大的轉(zhuǎn)變。而云測數(shù)據(jù)帶來的這種轉(zhuǎn)變,不只是帶來了更高的精準(zhǔn)度、更高質(zhì)量的AI數(shù)據(jù),也使得數(shù)據(jù)標(biāo)注產(chǎn)業(yè)在AI時代的產(chǎn)業(yè)鏈條中作用愈加突出。數(shù)據(jù)標(biāo)注就像是信息世界的新基建,只有基石的建設(shè)穩(wěn)妥了,AI產(chǎn)業(yè)的高樓才能拔地而起,才能加速人工智能更好的到來。
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點,未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來自網(wǎng)絡(luò),且未核實版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
智能相對論(微信ID:aixdlun):
?AI產(chǎn)業(yè)新媒體;
?今日頭條青云計劃獲獎?wù)逿OP10;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機、無人機等AIoT設(shè)備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準(zhǔn)AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。