還覺得智能是靠人工堆出來的?AI下半場,這家公司要為數(shù)據(jù)正身

原標(biāo)題:還覺得智能是靠人工堆出來的?AI下半場,這家公司要為數(shù)據(jù)正身

大數(shù)據(jù)文摘出品

記者:寧云州

數(shù)據(jù)、算法、算力是人工智能的基本三要素。在資本的催化下,算力和算法都得到了“大躍進(jìn)”式的發(fā)展,但作為三要素之一的數(shù)據(jù)卻一直站在聚光燈之外。隨著AI的商業(yè)化的不斷落地,打造以數(shù)據(jù)為核心的行業(yè)壁壘已成為各大人工智能企業(yè)面前最重要、但卻最容易被忽視的環(huán)節(jié)。

26歲的單身母親Brenda住在非洲最大的貧民窟基貝拉,這也是全球最貧困的社區(qū)之一。每天早上Brenda都會乘坐公共汽車前往內(nèi)羅畢東部,和她的1000多名同事一起,開始一天八小時的工作。

她的主要工作內(nèi)容簡單而機(jī)械:上傳圖片,然后用鼠標(biāo)機(jī)械地標(biāo)記一張圖片上的所有物體——人、車輛、交通標(biāo)識、道路標(biāo)記,甚至天空。在這里工作八小時可以得到9美元的報酬,對于當(dāng)?shù)厝藖碚f,這已是一筆可觀的收入。

能簡單控制鼠標(biāo)的Brenda和她分布全球上百萬的同事們,在通過幾個小時的培訓(xùn)后成為了全球人工智能產(chǎn)業(yè)鏈上最重要的環(huán)節(jié)之一。

在人工智能發(fā)展的早期,人工智能廠商通過廉價勞動力來滿足自身的數(shù)據(jù)標(biāo)注需求。而Brenda和她的同事們就是這樣的勞力,是人工智能背后的“人工”。

隨著人工智能的發(fā)展迭代,這樣“粗放”的標(biāo)注方式正在逐漸被淘汰。

從吃糠咽菜到山珍海味,人工智能變身挑剔老饕

作為人工智能發(fā)展最基本的三要素,數(shù)據(jù)、算法和算力三元素之間一直處于相互制約,又相互促進(jìn)升級的關(guān)系。互聯(lián)網(wǎng)的誕生,讓數(shù)據(jù)處于井噴式的爆發(fā),助推了算力的提升,推動了算法的進(jìn)步。而近年來生成對抗網(wǎng)絡(luò)(GANs)等技術(shù)及眾多數(shù)據(jù)采集設(shè)備的應(yīng)用,用于訓(xùn)練的數(shù)據(jù)可被多次復(fù)用,并與更多維數(shù)據(jù)融合進(jìn)行算法訓(xùn)練正在成為趨勢。使得數(shù)據(jù)需求從原來單純追求“量”轉(zhuǎn)變成追求“質(zhì)量”。

隨著人工智能商業(yè)化進(jìn)程的加速,輔助駕駛、客服機(jī)器人等應(yīng)用已開始普及。人工智能從理論落地正逐漸走入平常百姓家。人們對于AI的能力要求,以及在實(shí)際使用中產(chǎn)品穩(wěn)定性,安全性的要求,也在逐漸提升。

安全性、穩(wěn)定性的提升,實(shí)際是在倒逼對標(biāo)注數(shù)據(jù)精確度提升的,這也就對數(shù)據(jù)精度有了更高的要求。曾經(jīng)95%的數(shù)據(jù)精度就能“喂飽”的人工智能,開始需要更高精度的數(shù)據(jù)“喂養(yǎng)”,追求高精度訓(xùn)練數(shù)據(jù)已然成為了AI落地的必要因素。

如果說以前的算法使用的通用數(shù)據(jù)集是粗糧的話,那現(xiàn)在算法需要的就是定制化的營養(yǎng)餐。企業(yè)若想進(jìn)一步提升模型的落地能力,必然要逐漸脫離原來的通用數(shù)據(jù)集和互聯(lián)網(wǎng)數(shù)據(jù),積極投身于定制化數(shù)據(jù)采集當(dāng)中,打造數(shù)據(jù)優(yōu)勢壁壘。

數(shù)據(jù)采集進(jìn)入深水區(qū):定制化數(shù)據(jù)采集成為數(shù)據(jù)獲取層面的必要一環(huán)

眾包采集和定制化采集是數(shù)據(jù)采集行業(yè)的兩種常見模式。

眾包模式的優(yōu)勢主要體現(xiàn)在樣本的豐富性和多樣性上,但對于行至今日的AI數(shù)據(jù)服務(wù)業(yè)務(wù),通過眾包模式解決所有數(shù)據(jù)采集需求并不現(xiàn)實(shí)。

首先,數(shù)據(jù)的安全性問題很難解決:平臺用戶提供的圖片可能是未經(jīng)合法授權(quán)的,作為平臺方很難判斷用戶提供數(shù)據(jù)的來源。

此外,涉及到定制化需求的采集任務(wù)中,尤其是較為復(fù)雜的任務(wù)中,從眾包用戶采集到的數(shù)據(jù)往往差強(qiáng)人意,反倒增加了更多的審核成本。

更不用說有些采集需要在特定的場景內(nèi)進(jìn)行,具有一定的危險性(如輔助駕駛中對駕駛員行為進(jìn)行采集),類似這樣的采集任務(wù)通過眾包非但達(dá)不到效果,還增加了采集用戶的風(fēng)險。

:智能駕駛21區(qū)域定點(diǎn)識別采集

作為AI數(shù)據(jù)服務(wù)行業(yè)內(nèi)唯一的獨(dú)角獸企業(yè),Testin云測對這個問題感同身受。一開始,只是有一些AI企業(yè)找到Testin云測,希望通過Testin云測的眾測平臺做數(shù)據(jù)采集。但隨著AI企業(yè)數(shù)據(jù)需求的不斷進(jìn)化,Testin云測開始通過自建數(shù)據(jù)場景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,打造專業(yè)的定制化采集和高質(zhì)量的標(biāo)注隊伍,來幫助AI企業(yè)獲取更多優(yōu)質(zhì)的特定場景數(shù)據(jù)。

場景實(shí)驗(yàn)室:深挖真實(shí)數(shù)據(jù)需求,搭配穩(wěn)定被采樣本

“場景實(shí)驗(yàn)室是Testin云測布局高度定制化、多模態(tài)的AI數(shù)據(jù)服務(wù)的重要組成部分,借此能使得Testin云測的交付能力與客戶需求平行,甚至領(lǐng)先客戶的需求一點(diǎn)點(diǎn)”,Testin云測VP賈宇航說道。

領(lǐng)先需求“一點(diǎn)點(diǎn)”,需要的不僅是強(qiáng)大技術(shù)能力和搭建能力,更要有對應(yīng)用場景深入的了解。

“在一個項(xiàng)目中,客戶希望在不同光照條件和光照角度下采集玻璃后面的人臉數(shù)據(jù)”,賈宇航為我們舉例道:“不同于以往常見的安防攝像頭采集,這個項(xiàng)目中單是光源條件就分成了室內(nèi)和室強(qiáng)光、逆光、倒光等一共24種光照條件,不僅如此,玻璃反光度、模特臉部遮擋比例值等都有嚴(yán)格的要求。”

對于這樣的定制化采集需求,場景搭建雖然非常繁瑣,但還談不上困難。然而,AI數(shù)據(jù)服務(wù)的提供商絕不應(yīng)該僅僅是幫助客戶搭建場景,而是要幫助客戶找到最需要的數(shù)據(jù)結(jié)果。在這個項(xiàng)目中,玻璃的反光程度不僅與玻璃的材質(zhì)厚度有關(guān),也跟光源大小、光源與玻璃之間的角度和距離等一系列變量有關(guān)。Testin云測最終搭建了一個將近3000平米的場景以完成數(shù)據(jù)采集。

“只有深入理解了場景、深入理解了客戶需求,才有可能提供給客戶真實(shí)需要的數(shù)據(jù)。缺乏把握客戶真實(shí)需求的能力將會給我們帶來巨大的風(fēng)險”,賈宇航總結(jié)道。

而面對越來越定制化的AI數(shù)據(jù)需求,僅僅擁有場景搭建能力也是不夠的,沒有穩(wěn)定的樣本儲備,再高超的場景搭建能力也是空談。

賈宇航為我們舉了很“簡單”的人臉表情采集的例子:“采集人臉表情是一件既簡單又困難的事情。簡單在于人群樣本并不難找,而困難則在于對著攝像頭切換不同表情并不是一件簡單的事情,能夠準(zhǔn)確作出各種表情的人少之又少。例如‘痛苦’的表情,人類很難在沒有外界刺激的情況下憑空表現(xiàn)出來。對于這樣的需求,我們就需要更加專業(yè),配合度更高的人群樣本。場景實(shí)驗(yàn)室的第二個顯著優(yōu)勢就是能夠搭配穩(wěn)定的備采人群樣本。我們剛才提到的‘表情采集’項(xiàng)目最終是由在浙江橫店的演員群體完成的?!?/span>

雖然被采人群在性別、年齡、人種等方面的豐富度很重要,但面對越來越精細(xì)的落地場景,人群樣本的配合度更需要相應(yīng)提高,如果考慮到長尾場景,甚至需要一些專業(yè)人士來參與采集,比如演員、殘障人士等等。

不論是從最開始的“識別人的臉”到“苛刻條件下識別是誰的臉”,還是從以前的“識別表情”到“識別真實(shí)的表情”。我們總能感受到人工智能在朝著越來越細(xì)分的領(lǐng)域發(fā)展。

數(shù)據(jù)標(biāo)注精度要求從95%上升到99%+

為了算法落地,AI企業(yè)不僅需要定制化的數(shù)據(jù)采集來獲得長尾場景的數(shù)據(jù);同時對于標(biāo)注數(shù)據(jù)的精度也需要進(jìn)一步提升。正如AI工程師的座右銘“garbage in, garbage out”所描述的那樣,對于模型精度要求的提高正在倒逼輸入數(shù)據(jù)的質(zhì)量進(jìn)一步提高。

賈宇航為我們解釋,“為了完成數(shù)據(jù)質(zhì)量的跨越,我們選擇自建數(shù)據(jù)標(biāo)注基地以及系統(tǒng)化流程。

與場景實(shí)驗(yàn)室的布局類似,Testin云測在全國范圍內(nèi)也建立了數(shù)據(jù)標(biāo)注基地。在這里,Testin云測的技術(shù)和項(xiàng)目管理能力能夠迅速轉(zhuǎn)換,成為具體數(shù)據(jù)標(biāo)注業(yè)務(wù)中的生產(chǎn)力。

賈宇航接著說道:“為了應(yīng)對專業(yè)度日益提高的標(biāo)注任務(wù),自建的數(shù)據(jù)基地能夠大幅提高數(shù)據(jù)標(biāo)注的效率,在我們的標(biāo)注平臺上,標(biāo)注人員使用統(tǒng)一的工具在標(biāo)準(zhǔn)化的作業(yè)流程中對數(shù)據(jù)進(jìn)行標(biāo)注,在一些復(fù)雜任務(wù)上,甚至可以做到多人協(xié)同標(biāo)注。而在無形的層面上,技術(shù)還能夠幫助我們迅速、深入地理解客戶需求,降低溝通成本?!?/span>

這種技術(shù)能力還滲透到了Testin云測的流程化管理中。通過標(biāo)準(zhǔn)化測試,標(biāo)注云平臺將已經(jīng)標(biāo)注完成的數(shù)據(jù)隨機(jī)安插在標(biāo)注員的標(biāo)注作業(yè)中,實(shí)時把握標(biāo)注人員對需求的掌握情況,從而減少了質(zhì)檢環(huán)節(jié)的壓力,再加上云平臺本身的輔助質(zhì)檢功能,能夠更有效地保證數(shù)據(jù)的高質(zhì)量輸出。

“在路況信息數(shù)據(jù)的標(biāo)注作業(yè)中,每一個圖片數(shù)據(jù)包含著幾十個屬性分類,基于平臺的協(xié)同標(biāo)注,標(biāo)注團(tuán)隊可以劃分為幾個標(biāo)注小組,針對固定的幾個屬性進(jìn)行標(biāo)注,這樣不但提升了標(biāo)注員的效率,同時配合平臺的標(biāo)準(zhǔn)化測試和輔助質(zhì)檢功能,還可以有效地對標(biāo)后數(shù)據(jù)進(jìn)行錯標(biāo)和漏標(biāo)的篩查,從而確保高質(zhì)高效的數(shù)據(jù)交付?!辟Z宇航表示。

未來:更加安全和個性化

人工智能正在逐漸從一些抽象的概念變成我們生活當(dāng)中實(shí)際的應(yīng)用,但階段性地來看,AI數(shù)據(jù)數(shù)量和質(zhì)量的瓶頸還將持續(xù)制約行業(yè)的發(fā)展。

對于AI行業(yè)當(dāng)下的發(fā)展,賈宇航也沒有掩飾自己的擔(dān)憂:“行業(yè)內(nèi)客觀存在一些要求版權(quán)歸屬甲方,但乙方依然售賣多份給不同客戶的情況。而我們首先做的就是嚴(yán)格把控數(shù)據(jù)的私密性,讓擁有數(shù)據(jù)成為企業(yè)的核心壁壘,不會存在倒買倒賣等行為。同時,我們內(nèi)部有數(shù)據(jù)隔離、質(zhì)量保障等一系列保護(hù)數(shù)據(jù)安全的方法,可以在確保企業(yè)數(shù)據(jù)安全的情況下,持續(xù)為數(shù)據(jù)采集和標(biāo)注構(gòu)建和優(yōu)化自己的方案?!?/span>

盡管如此,賈宇航對于AI數(shù)據(jù)的未來依然充滿信心:“我們認(rèn)為無論是過去的移動互聯(lián)網(wǎng)應(yīng)用還是現(xiàn)在的AI應(yīng)用都只是應(yīng)用的一種,而我們想要做的事情就是幫助客戶讓其應(yīng)用更有價值。從認(rèn)識要用更加專業(yè)化的AI數(shù)據(jù)服務(wù)來解決越來越定制化的需求開始,我們已經(jīng)在AI真正全面落地的征途上邁出了第一步。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-07-23
還覺得智能是靠人工堆出來的?AI下半場,這家公司要為數(shù)據(jù)正身
隨著AI的商業(yè)化的不斷落地,打造以數(shù)據(jù)為核心的行業(yè)壁壘已成為各大人工智能企業(yè)面前最重要、但卻最容易被忽視的環(huán)節(jié)。

長按掃碼 閱讀全文