沒有好的數(shù)據(jù),人工智能就沒有未來。
雖然早在2017年,“AI元年”的噱頭就已經(jīng)打響,但直到近期,業(yè)界才終于承認(rèn),各項(xiàng)技術(shù)紛紛實(shí)現(xiàn)落地的2019年,才是名副其實(shí)的“AI元年”。在“互聯(lián)網(wǎng)”成為傳統(tǒng)產(chǎn)業(yè)的今天,基于各項(xiàng)AI技術(shù)實(shí)現(xiàn)的無人駕駛、智慧家居、新零售等新概念爭先恐后出現(xiàn),而物流、制造業(yè)等傳統(tǒng)產(chǎn)業(yè)也沒有落后于時代潮流,紛紛尋求借助AI進(jìn)行產(chǎn)業(yè)升級,擁抱智能化,而在勢不可擋的智能化大潮前,始終藏在幕后構(gòu)建技術(shù)地基、協(xié)助技術(shù)實(shí)現(xiàn)落地支撐的數(shù)據(jù)標(biāo)注服務(wù),在其中扮演了關(guān)鍵性的重要角色,是AI行業(yè)里真正的“隱形關(guān)鍵”。
在過去,數(shù)據(jù)標(biāo)注行業(yè)很少出現(xiàn)在人們的視野中,但業(yè)內(nèi)卻有著相同的共識:沒有好的數(shù)據(jù),AI就沒有未來。
這句話并不夸張。目前為止,我們所看到的人工智能,已經(jīng)跳脫出枯燥單一的計算,轉(zhuǎn)化為以深度神經(jīng)網(wǎng)絡(luò)為主的新智能體系,而深度神經(jīng)網(wǎng)絡(luò)對于數(shù)據(jù)有很強(qiáng)的依賴性,所以,憑借對體量龐大的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,挖掘隱性知識,AI系統(tǒng)才能將海量、復(fù)雜、多源的語音、圖像和視頻數(shù)據(jù)轉(zhuǎn)化為機(jī)器可識別的、具有明確語義的信息,借此進(jìn)行機(jī)器的自主學(xué)習(xí)。而不夠精準(zhǔn)卻足量的數(shù)據(jù),則會讓AI的識別學(xué)習(xí)系統(tǒng)產(chǎn)生混亂和誤差。在谷歌發(fā)布的CNN報告中,就提到一個嚴(yán)重的問題:自動駕駛車輛的識別系統(tǒng)難以分辨黑色人種和同為靈長類的大猩猩,所以相比白種人、黃種人,黑色人種的辨別率會低10%,——如果采用更多的、經(jīng)過精密標(biāo)注過的數(shù)據(jù),這樣的誤差可以很大程度的緩解。
其實(shí),在自動駕駛領(lǐng)域,精準(zhǔn)海量的數(shù)據(jù)標(biāo)注,價值不僅僅體現(xiàn)在識別上,在逐漸成為汽車標(biāo)配的輔助駕駛方面,數(shù)據(jù)標(biāo)注也有很強(qiáng)的存在感。在輔助駕駛過程中,有一個關(guān)鍵功能叫做駕駛員疲勞檢測,通過視覺識別的方式監(jiān)測駕駛員的狀態(tài),識別是否分神,是否在打電話,是否在打瞌睡,而在輔助駕駛的過程中,駕駛員也極有可能出現(xiàn)注意力不集中的情況。在更細(xì)致精密的數(shù)據(jù)標(biāo)注介入后,識別系統(tǒng)被賦予了一系列能力,比如疲勞監(jiān)測系統(tǒng)、危險動作監(jiān)測系統(tǒng)等,在用戶享受便利的同時,能使得公路駕駛更加安全,解決了這樣的問題,自動駕駛和輔助駕駛才得以廣泛推廣和應(yīng)用。
在高科技產(chǎn)業(yè)的實(shí)際落地中,數(shù)據(jù)的重要性有目共睹,而在助力傳統(tǒng)產(chǎn)業(yè)智能化方面,數(shù)據(jù)標(biāo)注也有著廣闊的賦能前景。一個非常容易被感知到的變化是,我們在致電銀行、通信運(yùn)營商,或者接到他們的服務(wù)電話時,會發(fā)現(xiàn)很多坐席人員變成了AI語音助手,能夠精準(zhǔn)識別天南海北的方言提出的疑問,這要?dú)w功于數(shù)據(jù)標(biāo)注在方言識別上的突破,使得坐席人員可以從簡單的問題中或通知性溝通中解放出來,將精力專注于服務(wù)更棘手的特殊問題,不僅提高了話務(wù)人員的工作效率,也減輕了機(jī)械性人工的投入。
“不僅是要服務(wù)高新技術(shù)產(chǎn)業(yè),扶持和賦能傳統(tǒng)產(chǎn)業(yè)的智能化升級,也是我們的使命,通過高純凈度的數(shù)據(jù)標(biāo)注服務(wù),無論是高科技產(chǎn)業(yè),還是傳統(tǒng)產(chǎn)業(yè),都能獲得智慧升級的機(jī)會。”Testin云測旗下AI數(shù)據(jù)服務(wù)(數(shù)據(jù)標(biāo)注采集)品牌——云測數(shù)據(jù)總經(jīng)理賈宇航這樣說道。
創(chuàng)新和技術(shù)改造傳統(tǒng)數(shù)據(jù)標(biāo)注雖然不如科技公司光鮮亮麗賺足眼球,數(shù)據(jù)標(biāo)注行業(yè)一直巧居幕后默默無聞。根據(jù)2018年智研發(fā)布的《2019-2025年中國數(shù)據(jù)標(biāo)注與審核行業(yè)市場專項(xiàng)分析研究及投資前景預(yù)測報告》顯示,近幾年,數(shù)據(jù)標(biāo)注與審核行業(yè)快速發(fā)展,2018年市場規(guī)模已達(dá)到52.55億元,而在這樣的增量市場中,大批看到了企業(yè)需求的從業(yè)者瘋狂涌入,使得整個行業(yè)出現(xiàn)良莠不齊的情況,數(shù)據(jù)粗放、混亂、復(fù)用的情況屢見不鮮,在賈宇航看來,這樣的數(shù)據(jù)導(dǎo)入到機(jī)器學(xué)習(xí)中,結(jié)果是得不償失的。
“AI發(fā)展和數(shù)據(jù)標(biāo)注產(chǎn)業(yè)是一個雞生蛋,蛋生雞的邏輯,如果數(shù)據(jù)不夠純凈,就像人吃了壞掉的食物,只會產(chǎn)生病狀,不能起到吸收利用的作用。用到機(jī)器學(xué)習(xí)中,就會破壞AI的數(shù)據(jù)學(xué)習(xí)體系,產(chǎn)生大的誤差,而誤差產(chǎn)生后,后續(xù)的自主學(xué)習(xí)又會產(chǎn)生偏離,形成惡性循環(huán)。”
面對這樣的問題,云測數(shù)據(jù)做出了一系列的應(yīng)對措施。
為了滿足不同場景的特殊需求,云測數(shù)據(jù)搭建了自己的場景實(shí)驗(yàn)室,為各種細(xì)分場景模擬無噪的專屬數(shù)據(jù)。在數(shù)據(jù)標(biāo)注行業(yè),特定場景的數(shù)據(jù)在普通的場景下始終是可遇不可求的,比如馬路上的摔倒場景,如果真的調(diào)取某一個特定道路攝像頭的資料,符合“路人摔倒”要求的畫面也許在1000分鐘里都難以捕捉到一次,更不能滿足各種角度、各個時段、不同年齡、著裝、性別的學(xué)習(xí)要求。面對這種指向明確的需求,云測數(shù)據(jù)會搭建特定的場景棚,邀請各種“演員”,模擬不同的形態(tài)進(jìn)行采集;為了采集不同的情緒在面部五官上的表現(xiàn),云測數(shù)據(jù)甚至還在橫店建立了一個數(shù)據(jù)場景實(shí)驗(yàn)室,專門邀請橫店具有面部表情表現(xiàn)力的群眾演員,為企業(yè)錄制精準(zhǔn)的情緒,以滿足需要識別情緒的場景。
完成數(shù)據(jù)收集后,標(biāo)注的過程依然存在挑戰(zhàn)。在更多的數(shù)據(jù)標(biāo)注企業(yè)中,依然在沿用傳統(tǒng)的標(biāo)注工具,“小米加步槍”式地進(jìn)行數(shù)據(jù)標(biāo)注,而云測數(shù)據(jù)團(tuán)隊(duì)研發(fā)的標(biāo)注平臺,率先實(shí)現(xiàn)了全品類支持,同時滿足AI數(shù)據(jù)的三個維度:圖像、文本和音頻。在實(shí)際生產(chǎn)使用的過程中,針對一些特殊的標(biāo)注,例如自動駕駛中的3D模型,由于文件大、渲染速度慢,導(dǎo)致標(biāo)注效率很低,而這套自研的標(biāo)注工具中包含的渲染引擎,就能保證整個過程的流暢和快捷。憑借這樣工程化的研發(fā)改造,在面對客戶的定制化的需求時,云測數(shù)據(jù)保證了自身的能力觸達(dá)和及時響應(yīng),從而提高了服務(wù)能力和效率。在保證準(zhǔn)確性的同時,降低了人為因素可能導(dǎo)致的誤差,確保了降本提效。
在數(shù)據(jù)標(biāo)注行業(yè),復(fù)制一份數(shù)據(jù)是非常簡單的,也能節(jié)省大量的人力成本,在業(yè)內(nèi)成了大家心知肚明的“潛規(guī)則”。作為頭部選手的云測數(shù)據(jù),核心的原則,就是保證數(shù)據(jù)隱私性和安全性,而首先要做到的,是數(shù)據(jù)絕不復(fù)用。出于強(qiáng)烈的自我規(guī)范意識,云測數(shù)據(jù)對客戶定制的數(shù)據(jù)交付后不留底,全部清刪;第二就是保證數(shù)據(jù)隱私性。與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,包括歐盟GDPR協(xié)議也做支持,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);第三,建立相關(guān)的數(shù)據(jù)保障機(jī)制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護(hù)、各個終端也做了不聯(lián)網(wǎng)、USB接口封死等管理,從源頭上保證了客戶的數(shù)據(jù)安全。
“從整體看來,AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標(biāo)準(zhǔn)和強(qiáng)調(diào)重視。但從我們長遠(yuǎn)角度出發(fā),一直在隱私和安全防護(hù)角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個社會和人類進(jìn)程”。Testin云測CMO張鵬飛說道。
告別“血汗工廠”,培新+晉升讓人工更“智能”即便運(yùn)用了各種技術(shù)手段,增加標(biāo)注行業(yè)的技術(shù)含量和安全性,但由于行業(yè)過于低調(diào),外界對這個行業(yè)依然存在誤解,認(rèn)為數(shù)據(jù)標(biāo)注是“AI產(chǎn)業(yè)的富士康”,與AI“去人工化”的本質(zhì)相違背。事實(shí)上,在云測數(shù)據(jù)的各個標(biāo)注基地,近千人的標(biāo)注團(tuán)隊(duì)并非人們固有印象中的“血汗工廠”。云測數(shù)據(jù)十分注重對標(biāo)注人員的專業(yè)性培訓(xùn),也致力于用自研的標(biāo)注工具這樣的技術(shù)手段,減輕“人”在數(shù)據(jù)標(biāo)注中的重復(fù)勞動力。
從技術(shù)層面來說,云測數(shù)據(jù)自研的數(shù)據(jù)標(biāo)注平臺會根據(jù)實(shí)際使用中的反饋,以每周甚至更快的頻率進(jìn)行更新,以契合標(biāo)注平臺更人性化的使用?;谠茰y數(shù)據(jù)在過去的幾年里進(jìn)行的海量技術(shù)更新,并結(jié)合更多的落地場景,數(shù)據(jù)標(biāo)注工作的技術(shù)含量也在不斷提升。
從管理角度來看,過去數(shù)據(jù)標(biāo)注業(yè)經(jīng)常會面對“血汗工廠”的誤解,有暗無天日、機(jī)械重復(fù)的固有印象。但實(shí)際上,云測數(shù)據(jù)的標(biāo)注基地采取八小時工作制,也會提供用餐補(bǔ)助,讓員工吃上安全豐盛的工作餐。此外,標(biāo)注人員在云測數(shù)據(jù)也會享受到完善的晉升機(jī)制,從標(biāo)注員到審核人員、項(xiàng)目助理、項(xiàng)目經(jīng)理,云測數(shù)據(jù)提供了一條明確的職業(yè)上升路線,致力于協(xié)助標(biāo)注人員進(jìn)行職業(yè)規(guī)劃和職業(yè)發(fā)展。至于近千人的用工規(guī)模,賈宇航認(rèn)為,這和AI的本質(zhì)也并不違背:
“AI就是要去人工化,這句話太片面,它其實(shí)也在創(chuàng)造更多的就業(yè)崗位。就像工業(yè)革命到來以后,很多手工作坊消失了,但我們也看到,更多的人工投入到了工業(yè)革命所創(chuàng)造出的其他行業(yè)中,AI的出現(xiàn),同樣也是擴(kuò)大了人類的生產(chǎn)力。我相信其實(shí)人工智能的確會替代很多重復(fù)性勞動,但我不認(rèn)為人的工作會變少,數(shù)據(jù)標(biāo)注只是像工業(yè)革命一樣,創(chuàng)造了更多的就業(yè)機(jī)會,同時也在推動行業(yè)的技術(shù)升級。”
在云測數(shù)據(jù)看來,將技術(shù)升級引進(jìn)數(shù)據(jù)標(biāo)注的過程,不僅僅是在解放重復(fù)生產(chǎn)力,對行業(yè)的推動也是巨大的,在云測數(shù)據(jù)內(nèi)部,有著“一橫一縱”的說法,一橫,指的是有越來越多的行業(yè)會引入人工智能,而云測數(shù)據(jù)將在駕駛、家居、零售、金融和智慧城市等更多領(lǐng)域持續(xù)發(fā)力;一縱,指的是深挖行業(yè)趨勢,結(jié)合領(lǐng)域相關(guān)的知識,提高AI數(shù)據(jù)精度、效率。
在未來,云測數(shù)據(jù)希望沿著人工智能的發(fā)展動線,通過AI數(shù)據(jù)服務(wù)的支撐,推動不同產(chǎn)業(yè)積極擁抱智能化,助力各行各業(yè)的發(fā)展。而在這樣的趨勢中,緊密鏈接產(chǎn)業(yè)鏈上下游的云測數(shù)據(jù)已經(jīng)做好了準(zhǔn)備,在潛在的爆發(fā)機(jī)會中,云測數(shù)據(jù)蓄勢待發(fā),為一場行業(yè)變革積累著可觀的勢能。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 比亞迪第五代DM技術(shù)問世,首搭秦L/海豹06 DM-i,開創(chuàng)油耗2時代!
- 小紅書沉帖降權(quán)怎么做,有效方法大盤點(diǎn)!
- 亞洲時刻京東送上電視好禮 以舊換新一體化服務(wù)讓低價更靠譜
- 互聯(lián)網(wǎng)營銷師和全媒體運(yùn)營師的區(qū)別?
- 聯(lián)想集團(tuán)車計算“超級大腦”概念機(jī)亮相
- 華策影視設(shè)立專項(xiàng)基金成立AIGC應(yīng)用研究院
- 三部委審批,聯(lián)合發(fā)布9個新職業(yè),“互聯(lián)網(wǎng)營銷師”上榜
- 互聯(lián)網(wǎng)營銷師的報考條件是什么?
- 互聯(lián)網(wǎng)營銷師的適合人群有哪些?
- 互聯(lián)網(wǎng)營銷師行業(yè)前景怎么樣?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。