教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

屏前幕后,孜孜不倦的人們,用「數(shù)據(jù)標(biāo)注」教會(huì) AI 認(rèn)識(shí)現(xiàn)實(shí)世界。而他們所處的數(shù)據(jù)采標(biāo)行業(yè)本身,也正在從早期粗糙的「數(shù)據(jù)作坊」發(fā)展成為「數(shù)據(jù)工廠」的專業(yè)化運(yùn)作。

如今,這些流程已經(jīng)發(fā)展出一條完整的產(chǎn)業(yè)鏈——采集、整理、清洗、標(biāo)注,流水線似的過(guò)程恰恰是 AI 算法模型精確運(yùn)行的根基所在。隨著 AI 技術(shù)在應(yīng)用場(chǎng)景下沉,AI 企業(yè)對(duì)算法落地性要求越來(lái)越高。此時(shí),垂直精細(xì)和定制化數(shù)據(jù)顯得尤為重要。

2018 年,中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為 25.86 億元,其中數(shù)據(jù)資源定制服務(wù)占比 86%。Testin云測(cè)旗下的 AI 數(shù)據(jù)服務(wù)品牌「云測(cè)數(shù)據(jù)」的出現(xiàn),就是一個(gè)典型案例。

通過(guò)定制化場(chǎng)景搭建,幫助 AI 企業(yè)或部門構(gòu)建數(shù)據(jù)核心壁壘,提供人工智能場(chǎng)景化落地最需要的數(shù)據(jù),這既是客戶獲取差異化優(yōu)勢(shì)的保證,同時(shí)也是云測(cè)數(shù)據(jù)的核心競(jìng)爭(zhēng)力之一。

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

周一,忙碌的工作照常被擰上發(fā)條,北京 2019 年的第一場(chǎng)大雪如期而至,這一天讓張儷興奮不已的不僅僅是大雪,還有她手中剛接下的項(xiàng)目訂單。

客戶是一家圈內(nèi)名氣不小的自動(dòng)駕駛公司,他們提供給張儷(化名)一套數(shù)萬(wàn)張的道路數(shù)據(jù)集,張儷將任務(wù)分配給服務(wù)智能駕駛方向的小組員工。

十天左右,該套數(shù)據(jù)里的自動(dòng)駕駛行車道檢測(cè)圖像即可標(biāo)注完成,準(zhǔn)確率超過(guò)客戶要求。

兩年前,就職于一家電商公司的張儷不會(huì)想到,兩年后的自己會(huì)和「高精尖」的人工智能技術(shù)打交道。

2017 年末,張儷所在的電商公司因?yàn)?O2O 市場(chǎng)降溫而倒閉。失業(yè)后不久,張儷在一位算法工程師朋友的推薦下,來(lái)到 Testin云測(cè),開(kāi)啟了一段不同尋常的工作,人工智能的訓(xùn)練員——數(shù)據(jù)標(biāo)注。

一開(kāi)始,她只需要標(biāo)注出圖像中的人物性別,工作內(nèi)容簡(jiǎn)單而機(jī)械。

接著,她開(kāi)始給人物標(biāo)注年齡段,開(kāi)始框定 2D 對(duì)象,然后標(biāo)注 3D 邊界框,再?gòu)陌讜儓D像到深夜和多霧場(chǎng)景……場(chǎng)景越來(lái)越多元、標(biāo)注需求越來(lái)越詳盡,最后這些經(jīng)過(guò)人類點(diǎn)撥過(guò)的數(shù)據(jù)被一股腦地投入神經(jīng)網(wǎng)絡(luò)的研發(fā)之中。

到現(xiàn)在,張儷已經(jīng)成長(zhǎng)為一名項(xiàng)目經(jīng)理助理,她的日常工作從標(biāo)注轉(zhuǎn)向項(xiàng)目承接,那些 AI 圈里耳熟能詳?shù)拿餍枪径际撬闹匾蛻簟?/p>

與數(shù)據(jù)標(biāo)注師相類似,螞蟻森林護(hù)林員、垃圾分類師、毒雞湯文案師……這些看似匪夷所思的新職業(yè),已經(jīng)與我們生活絲絲相扣。

一份今年的新興職業(yè)報(bào)告數(shù)據(jù)顯示,「小鎮(zhèn)青年」是 40 余種新職業(yè)的主力軍,從業(yè)者約一半生活在三四五線市縣,其中三分之二以上是兼職。

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

「非專業(yè)、兼職、勞動(dòng)力密集型」——是報(bào)告為數(shù)據(jù)標(biāo)注師圈定的標(biāo)簽,雖然不免有些以偏概全,但談起「標(biāo)注員」,確實(shí)很難將其與「專業(yè)化」、「技藝型」、「創(chuàng)造力」等字眼掛鉤。

但如今,數(shù)據(jù)服務(wù)的產(chǎn)業(yè)鏈條正在被重塑。AI 企業(yè)對(duì)于數(shù)據(jù)的應(yīng)用需求逐漸分化,精細(xì)度要求也越來(lái)越高,以往一味的粗放式加工模式已經(jīng)喪失市場(chǎng)競(jìng)爭(zhēng)力,大浪淘沙,從奔騰到平靜,泥沙聚沉,清流上涌。

Testin云測(cè)旗下的 AI 數(shù)據(jù)服務(wù)品牌「云測(cè)數(shù)據(jù)」的出現(xiàn),就是重塑整個(gè)產(chǎn)業(yè)和標(biāo)注員印象的一個(gè)典型案例。

一、小數(shù)據(jù)的大天地

根據(jù)佐治亞理工學(xué)院的一項(xiàng)研究——通過(guò)對(duì) 8 個(gè)圖像識(shí)別系統(tǒng)的測(cè)試,發(fā)現(xiàn)自動(dòng)駕駛汽車的傳感器和攝像頭,更善于檢測(cè)膚色較淺的人,而膚色較深被檢測(cè)出的準(zhǔn)確率平均會(huì)低 5%。

結(jié)論一經(jīng)報(bào)道,諸如「AI 行業(yè)也存在種族歧視」的言論便充斥在各大媒體上。

然而,從技術(shù)角度來(lái)看,計(jì)算機(jī)視覺(jué)是通過(guò) RGB 或 RGBD 識(shí)別人(物體)的信息,但是黑色是最難被識(shí)別的(黑色或深色的 RGB 整體數(shù)值偏小),尤其在實(shí)際情況中,系統(tǒng)也欠缺黑色及深色的數(shù)據(jù),由此導(dǎo)致算法模型不夠精確,最終技術(shù)在實(shí)際落地應(yīng)用時(shí)出現(xiàn)差錯(cuò)。

在數(shù)據(jù)服務(wù)行業(yè),這種細(xì)分且稀缺的數(shù)據(jù)統(tǒng)一被稱為「小數(shù)據(jù)」。

比如道路安防攝像頭,攝像頭中囊括行人、機(jī)動(dòng)車、自行車數(shù)據(jù),卻唯獨(dú)缺少行人跌倒數(shù)據(jù);在自動(dòng)駕駛領(lǐng)域,監(jiān)測(cè)系統(tǒng)需要采集駕駛員各種狀態(tài)數(shù)據(jù),但缺少疲勞狀態(tài)的數(shù)據(jù)。

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

賈宇航(云測(cè)數(shù)據(jù)總經(jīng)理)解釋道,云測(cè)數(shù)據(jù)針對(duì)這些需求,為客戶定制場(chǎng)景、采集數(shù)據(jù),在自動(dòng)駕駛場(chǎng)景中,云測(cè)數(shù)據(jù)可以讓駕駛員先開(kāi) 6 個(gè)小時(shí)車,最終采集到真實(shí)的疲勞數(shù)據(jù)。

據(jù)了解,云測(cè)數(shù)據(jù)目前的整個(gè)數(shù)據(jù)服務(wù)人員已達(dá)千人規(guī)模,通過(guò)標(biāo)審分離的流程化作業(yè)模式和數(shù)據(jù)安全機(jī)制,更好的保證數(shù)據(jù)的高質(zhì)量產(chǎn)出和數(shù)據(jù)隱私性,從而更好地為人工智能落地提供定制化『數(shù)據(jù)養(yǎng)料』。

數(shù)據(jù)服務(wù)行業(yè)早期,企業(yè)主要通過(guò)數(shù)據(jù)爬蟲(chóng)收集數(shù)據(jù),數(shù)據(jù)服務(wù)門檻很低,各個(gè)企業(yè)野蠻生長(zhǎng)、魚(yú)龍混雜;第二階段開(kāi)源/付費(fèi)數(shù)據(jù)集開(kāi)始出現(xiàn),主要分為語(yǔ)音類、圖像類、NLP 類數(shù)據(jù)集等。

隨著 AI 的發(fā)展,僅僅靠數(shù)據(jù)收集已經(jīng)不能滿足客戶的算法訓(xùn)練需求,第三階段的 AI 數(shù)據(jù)眾包平臺(tái)應(yīng)運(yùn)而生,在眾包平臺(tái)上,可進(jìn)行更豐富多樣的數(shù)據(jù)采集與標(biāo)注,進(jìn)一步提升 AI 的能力。

當(dāng)時(shí)百度和亞馬遜都曾發(fā)展過(guò)此項(xiàng)業(yè)務(wù),2011 年百度數(shù)據(jù)眾包就以部門的形式成立,不僅為百度內(nèi)部需求方如百度 NLP、百度地圖等提供 AI 數(shù)據(jù)采集和標(biāo)注服務(wù),同樣將數(shù)據(jù)眾包業(yè)務(wù)進(jìn)行開(kāi)放,根據(jù)客戶需求制定數(shù)據(jù)采集方案。

如今 AI 與各個(gè)產(chǎn)業(yè)結(jié)合得愈加緊密,為保證算法優(yōu)勢(shì),客戶需要采用定制化服務(wù),由客提出具體需求,數(shù)據(jù)服務(wù)商對(duì)數(shù)據(jù)進(jìn)行采集并標(biāo)注,定制化數(shù)據(jù)的需求日益增長(zhǎng)標(biāo)志著數(shù)據(jù)服務(wù) 4.0 時(shí)代已經(jīng)來(lái)臨。

根據(jù)艾瑞《中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書(shū)》顯示,2018 年,數(shù)據(jù)資源定制服務(wù)已在基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)占據(jù) 86.2% 的份額。

二、 場(chǎng)景實(shí)驗(yàn)室里的故事

浙江橫店,三腳架支起的鏡頭面前,往后延伸出長(zhǎng)長(zhǎng)的隊(duì)伍,這些群演并非在演戲試鏡,而是采集情緒數(shù)據(jù)。

「咔」地一聲,鏡頭面前,攝影燈下,群演們或大笑、或痛苦、或憤怒,表情的自然程度決定他們是否通過(guò)第一輪試鏡,進(jìn)入第二輪,考核的標(biāo)準(zhǔn)更為嚴(yán)苛。

群演面前立著一面鏡子,鏡子旁邊便是審核人,「想想你上一次失戀是什么時(shí)候,心情怎樣」,「你到現(xiàn)在最有成就感事情是什么」,諸如此類的問(wèn)答也是采集基地的苦心安排——引導(dǎo)情緒、烘托氣氛,保證情緒采集過(guò)程的真實(shí)、自然。

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

數(shù)據(jù)采集完成后,云測(cè)數(shù)據(jù)標(biāo)注員工需要根據(jù)圖片表現(xiàn)的情緒進(jìn)行精準(zhǔn)標(biāo)注,未經(jīng)精準(zhǔn)標(biāo)注的數(shù)據(jù),人工智能無(wú)法理解其中意義。

正如賈宇航所言,云測(cè)數(shù)據(jù)的采標(biāo)業(yè)務(wù)正是整個(gè) AI 產(chǎn)業(yè)所迫切需要的,橫店群演的情緒采集只是場(chǎng)景化定制數(shù)據(jù)的一個(gè)縮影。根據(jù)企業(yè)數(shù)據(jù)需求,還原 AI 應(yīng)用真實(shí)場(chǎng)景,這不僅需要深入理解需求,還需要快速構(gòu)建場(chǎng)景,而且對(duì)人力資源的調(diào)配能力也提出挑戰(zhàn)。

云測(cè)數(shù)據(jù)的服務(wù)采取項(xiàng)目制,每位專業(yè)項(xiàng)目經(jīng)理經(jīng)過(guò)了 30-60 天的職前培訓(xùn),幫助客戶拆分原始需求、優(yōu)化項(xiàng)目執(zhí)行方案,項(xiàng)目經(jīng)理集中培訓(xùn)后,再由項(xiàng)目經(jīng)理針對(duì)具體的項(xiàng)目對(duì)標(biāo)注、質(zhì)檢、審核員工進(jìn)行培訓(xùn)。

紛繁復(fù)雜的需求背后,有的是剛需,有的則是「無(wú)用功」,定制過(guò)程中,云測(cè)數(shù)據(jù)需要根據(jù)以往項(xiàng)目經(jīng)驗(yàn)及實(shí)地調(diào)查來(lái)明確需求,此后再細(xì)化、優(yōu)化需求,幫助客戶完成復(fù)雜場(chǎng)景的落地,同時(shí)避免客戶花費(fèi)更多成本。

在采集過(guò)程中云測(cè)數(shù)據(jù)會(huì)運(yùn)用專業(yè)的軟/硬件設(shè)備,比如用測(cè)光強(qiáng)度的設(shè)備來(lái)滿足客戶的環(huán)境光照要求,如果客戶需要純凈音頻數(shù)據(jù),那云測(cè)數(shù)據(jù)會(huì)搭建一個(gè)錄音棚,滿足諸如混響或者高底噪的定制化需求,最后再用麥克風(fēng)進(jìn)行錄制。

在云測(cè)數(shù)據(jù)交付部門負(fù)責(zé)人朱文輝看來(lái),整個(gè)行業(yè)仍處在早期,客戶需求變更經(jīng)常發(fā)生;其次,行業(yè)內(nèi)部面臨很多的不確定性,采標(biāo)現(xiàn)場(chǎng)的籌備環(huán)節(jié),人員的管理問(wèn)題,需要一系列的協(xié)同化處理。

如果說(shuō)數(shù)據(jù)采集只是備齊食材,那么標(biāo)注流程稱得上后期「烹飪」環(huán)節(jié),幫場(chǎng)景數(shù)據(jù)「訓(xùn)練」算法模型完成最后一道工序。

在標(biāo)注環(huán)節(jié),云測(cè)數(shù)據(jù)擁有線上自研的數(shù)據(jù)標(biāo)注平臺(tái)——平臺(tái)上聚合著如圖像、文本、音頻等數(shù)據(jù)類型的先進(jìn)標(biāo)注工具,尤其是在 3D 點(diǎn)云的標(biāo)注系統(tǒng)中優(yōu)化了渲染引擎,保證整個(gè)過(guò)程的流暢和快捷,當(dāng)屬業(yè)內(nèi)領(lǐng)先。

據(jù)朱文輝介紹,「研發(fā)團(tuán)隊(duì)里有產(chǎn)品經(jīng)理、前后端工程師」等,他們會(huì)針對(duì)不同領(lǐng)域循環(huán)式地改進(jìn)標(biāo)注工具,并根據(jù)客戶需求,實(shí)時(shí)反饋、實(shí)時(shí)更新、實(shí)時(shí)研發(fā)?!肝覀兊牡俣纫恢焙芸臁怪煳妮x回憶道:「迭代之后有些領(lǐng)域的效率提高了三倍不止。」

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

除了自研線上標(biāo)注平臺(tái),云測(cè)數(shù)據(jù)分別在華東、華南、華北自建了標(biāo)注基地,還有幾個(gè)基地正在部署中。在確保標(biāo)注數(shù)據(jù)準(zhǔn)確率的同時(shí),有效保證標(biāo)注作業(yè)的信息流轉(zhuǎn)和數(shù)據(jù)安全。

由于標(biāo)注是人工完成,本身主觀性因素較大,加之行業(yè)缺乏統(tǒng)一的標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn),這使得標(biāo)注工作充滿不確定性。

「標(biāo)注的過(guò)程是一個(gè)顛覆常識(shí)的過(guò)程」,朱文輝笑著說(shuō)道,「不同人對(duì)待同一件事情標(biāo)準(zhǔn)是不一樣的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每個(gè)人的標(biāo)準(zhǔn)都不一樣,主觀性很強(qiáng),在判斷的過(guò)程中,我們會(huì)與客戶一起溝通交流需求,厘清標(biāo)準(zhǔn);其次,有的標(biāo)注事件異常復(fù)雜,需要對(duì)標(biāo)簽進(jìn)行優(yōu)化,例如人臉識(shí)別,描述一張人臉需要 80 多個(gè)標(biāo)簽,此時(shí)云測(cè)數(shù)據(jù)會(huì)把該項(xiàng)目拆成 5 大類,分工完成,最終拼湊成完整的結(jié)果輸出」。

三、數(shù)據(jù)安全「密鑰」

2019 年 10 月 28 日,杭州「人臉識(shí)別「第一案將」究竟誰(shuí)有權(quán)收集我們的人臉信息「這一話題推向輿論高地,事隔一個(gè)月,轉(zhuǎn)轉(zhuǎn)、咸魚(yú)、淘寶等平臺(tái)」5000 多張人臉照標(biāo)價(jià) 10 元「的新聞在行業(yè)里又掀一輪風(fēng)波。

數(shù)據(jù)的惡意倒買倒賣已足夠駭人聽(tīng)聞,而另一方面,平臺(tái)未經(jīng)用戶授權(quán),將用戶數(shù)據(jù)記錄、用作自身系統(tǒng)優(yōu)化更是讓人防不勝防。

今年 1 月,蘋(píng)果在 CES 會(huì)展中心場(chǎng)外拉起一塊以隱私為主題的巨幅戶外廣告牌——「what happens on your iPhone,stays on your iPhone」。廣告采用黑底白字的極簡(jiǎn)風(fēng)格,但現(xiàn)實(shí)卻往往是灰色的——亞馬遜、蘋(píng)果、谷歌等公司都存在監(jiān)聽(tīng)用戶數(shù)據(jù)的行為。

正如科技巨頭們?yōu)樽陨磙q解的那樣,「監(jiān)聽(tīng)數(shù)據(jù)是為了優(yōu)化算法模型,提高用戶體驗(yàn)」,但他們卻從未澄清重要事實(shí)——使用人工聽(tīng)取錄音,標(biāo)注用戶關(guān)鍵信息,致使大量用戶個(gè)人隱私泄露。

如今,面對(duì)輿論壓力,科技巨頭們開(kāi)始調(diào)整戰(zhàn)略,亞馬遜允許 Alexa 用戶選擇對(duì)錄音不進(jìn)行人工審核;蘋(píng)果開(kāi)始允許用戶刪除 Siri 的歷史記錄,把共享錄音設(shè)為可選項(xiàng);谷歌暫停人工轉(zhuǎn)錄 Assistant 音頻。

平臺(tái)應(yīng)用方竊取數(shù)據(jù)進(jìn)行相關(guān)標(biāo)注,已經(jīng)讓平臺(tái)用戶人人自危,而在專業(yè)第三方數(shù)據(jù)采標(biāo)公司里,數(shù)據(jù)安全問(wèn)題更是凸顯。

目前數(shù)據(jù)服務(wù)行業(yè)中,在保障數(shù)據(jù)安全層面,主要包括私有化離線部署,駐場(chǎng)標(biāo)注,數(shù)據(jù)存儲(chǔ)在客戶本地;第二則是公有部署,數(shù)據(jù)接入在公有云服務(wù)器,通過(guò)數(shù)據(jù)接口加密、定期巡查、反爬蟲(chóng)機(jī)制保證數(shù)據(jù)安全。

作為AI數(shù)據(jù)服務(wù)的頭部企業(yè)的云測(cè)數(shù)據(jù),一直將數(shù)據(jù)隱私、數(shù)據(jù)安全放在業(yè)務(wù)開(kāi)展的首要地位。在賈宇航看來(lái),數(shù)據(jù)安全領(lǐng)域,無(wú)論是 AI 公司還是數(shù)據(jù)服務(wù)公司,眼光都要長(zhǎng)遠(yuǎn)一些,采用未經(jīng)授權(quán)的數(shù)據(jù)當(dāng)然可以控制成本,但是當(dāng)行業(yè)進(jìn)入越來(lái)越規(guī)范的階段,前期的野蠻發(fā)展終究會(huì)造成不良后果。

在保證數(shù)據(jù)安全方面,云測(cè)數(shù)據(jù)有三層面投入:

首先,不濫用數(shù)據(jù),數(shù)據(jù)交付后清毀數(shù)據(jù)不留底,絕不二次使用;

第二,不侵犯隱私,與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);

第三,建立相關(guān)的數(shù)據(jù)保障機(jī)制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護(hù)、乃至標(biāo)準(zhǔn)化的流程作業(yè)體系等。

Testin云測(cè) CMO 張鵬飛也補(bǔ)充道,「從整體看來(lái),AI 數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)和強(qiáng)調(diào)重視。但從我們長(zhǎng)遠(yuǎn)角度出發(fā),一直在隱私和安全防護(hù)角度下大力氣服務(wù)行業(yè)、樹(shù)立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來(lái)服務(wù)客戶,我們的行業(yè)才能『良幣驅(qū)除劣幣』,真正讓人工智能成為新一輪技術(shù)革命,改變整個(gè)社會(huì)和人類進(jìn)程」。

四、縱橫發(fā)展,數(shù)據(jù)服務(wù)的下一幕

目前,整個(gè)市場(chǎng)需求正向「一縱一橫「方向發(fā)展,」一橫「即指越來(lái)越多的行業(yè)開(kāi)始運(yùn)用 AI,不管是金融、保險(xiǎn)、物流、零售還是智能制造等行業(yè)。云測(cè)數(shù)據(jù)的客戶主要分為兩大類,一種是運(yùn)用 AI 顛覆行業(yè),一種是在傳統(tǒng)行業(yè)引入 AI,后者正在變得越來(lái)越多。

「一縱「是指 AI 與已有行業(yè)結(jié)合得越來(lái)越深,AI 正從大量數(shù)據(jù)驅(qū)動(dòng)變成了與產(chǎn)業(yè)相結(jié)合,需要與產(chǎn)業(yè)專家進(jìn)行合作,例如在人臉識(shí)別場(chǎng)景,早期只用識(shí)別人臉,之后發(fā)展到情緒檢測(cè),后期愈加深入細(xì)分——如微表情識(shí)別。

賈宇航用人臉關(guān)鍵點(diǎn)標(biāo)注來(lái)舉例。幾年前的人臉關(guān)鍵點(diǎn)標(biāo)注任務(wù)要簡(jiǎn)單很多,那時(shí)標(biāo)注員只需在人臉上標(biāo)出幾個(gè)點(diǎn)就行。而現(xiàn)在,人臉關(guān)鍵點(diǎn)標(biāo)注可涉及多達(dá) 206 個(gè)點(diǎn):每個(gè)眉毛上有 8+個(gè)點(diǎn),嘴唇上有 20+個(gè)點(diǎn),下頜輪廓上有 17+個(gè)點(diǎn)。在更多領(lǐng)域擁抱人工智能的趨勢(shì)下,數(shù)據(jù)服務(wù)從業(yè)者也需具備相應(yīng)的領(lǐng)域知識(shí)。

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

「一縱「趨勢(shì)讓 AI 數(shù)據(jù)服務(wù)逐漸從一個(gè)行業(yè)變成產(chǎn)業(yè),成本已不是企業(yè)唯一考量因素,管理效率,數(shù)據(jù)安全,數(shù)據(jù)質(zhì)量同樣重要。

早期行業(yè)的數(shù)據(jù)精度要求較低,工作機(jī)械化,如今正處在人工智能產(chǎn)業(yè)化落地前夕,算法對(duì)數(shù)據(jù)準(zhǔn)確度要求越來(lái)越高,行業(yè)的創(chuàng)造性被激發(fā)出來(lái),需要越來(lái)越專業(yè)的公司從事,留給數(shù)據(jù)標(biāo)注兼職業(yè)態(tài)的生存空間將越來(lái)越小,而行業(yè)也逐漸從勞動(dòng)密集型轉(zhuǎn)變成技藝密集型。

教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事

數(shù)據(jù)標(biāo)注服務(wù)從業(yè)者是人工智能背后的「英雄」,從長(zhǎng)期來(lái)看,AI 越來(lái)越智能,但對(duì)于偏感性的判斷仍比較難,如 AI 對(duì)文字的演化和情緒的識(shí)別仍是弱勢(shì),未來(lái) AI 要處理行業(yè)內(nèi)更為復(fù)雜的問(wèn)題,但人的感知力和判斷力不能被替代。

雖然人力不可替代,但對(duì)數(shù)據(jù)標(biāo)注員的專業(yè)要求將越來(lái)越高卻是無(wú)疑。

隨著「一縱」趨勢(shì)的深入,很多數(shù)據(jù)標(biāo)注工作要交由專業(yè)人士去做。標(biāo)注員將從兼職向全職再向具備專業(yè)領(lǐng)域知識(shí)的全職員工進(jìn)化,從業(yè)門檻的提高其實(shí)是行業(yè)變遷的縮影,數(shù)據(jù)標(biāo)注服務(wù)正從以往的「數(shù)據(jù)作坊」向流水線作業(yè)再向具備創(chuàng)造力與專業(yè)性的行業(yè)轉(zhuǎn)變。

依靠以往海量粗放的數(shù)據(jù)喂養(yǎng)已遠(yuǎn)遠(yuǎn)不能滿足如今 AI 行業(yè)的發(fā)展,而愈來(lái)愈精細(xì)的數(shù)據(jù)正是導(dǎo)致行業(yè)變遷的最大變量。

因此,AI 企業(yè)需要數(shù)據(jù)服務(wù)商強(qiáng)大的采標(biāo)能力,保證數(shù)據(jù)安全及高質(zhì)量,而與此對(duì)應(yīng)的各類場(chǎng)景搭建、條件變換、特殊人群都是「稀缺資源」,所謂「天下大事必作于細(xì)」,在 AI 行業(yè)下半場(chǎng)競(jìng)爭(zhēng)中,云測(cè)數(shù)據(jù)作為定制化數(shù)據(jù)服務(wù)提供商,通過(guò)提供「稀缺資源」、「以小博大」,在幫助算法公司獲得優(yōu)勢(shì)的同時(shí),贏得自身的差異化競(jìng)爭(zhēng)力。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-01-10
教AI認(rèn)知世界:云測(cè)數(shù)據(jù)正在做的那些事
屏前幕后,孜孜不倦的人們,用「數(shù)據(jù)標(biāo)注」教會(huì) AI 認(rèn)識(shí)現(xiàn)實(shí)世界。而他們所處的數(shù)據(jù)采標(biāo)行業(yè)本身,也正在從早期粗糙的「數(shù)據(jù)作坊」發(fā)展成為「數(shù)據(jù)工廠」的專業(yè)化運(yùn)作。

長(zhǎng)按掃碼 閱讀全文