2018年初,「甲子光年」曾發(fā)布《“數(shù)據(jù)折疊”:今天,那些人工智能背后“標數(shù)據(jù)的人”正在回家》。勞動密集型是人們對數(shù)據(jù)標注行業(yè)的固有印象,基層數(shù)據(jù)標注員被視為數(shù)據(jù)時代的“隱形人”,他們的工作日常就是坐在擁擠的小房間里,不停地按動鼠標,框取對象,依靠微薄的月薪在繁華的大城市里找到自己立足的一席之地。
而不久前的一個周三,「甲子光年」在位于房山的云測數(shù)據(jù)標注基地看到了另一種行業(yè)作業(yè)形式。
云測數(shù)據(jù)的其中一個標注基地是坐落于房山區(qū)北京金融安全創(chuàng)意產(chǎn)業(yè)園的一幢四層半高的小樓,一半是開放式辦公區(qū)域,另一半是按項目組設(shè)置的封閉房間,除了房間四角安裝的監(jiān)視器之外,跟普通的創(chuàng)業(yè)孵化園區(qū)并沒有太大區(qū)別。
第三層主要處理對安全性較高的數(shù)據(jù)標注業(yè)務(wù),設(shè)了門禁,需要通過指紋識別才能進入。
標注員李楠(化名)告訴「甲子光年」,兩個月前,她剛從數(shù)據(jù)標注員升級為質(zhì)檢員。
她在大董村跟同學合租了一個20平的開間,起初是四人合租,漲薪之后變成兩人。她每天上午步行十分鐘到基地上班,偶爾也需要加班。閑暇時間,她會練練手卷鋼琴緩解工作壓力。
云測數(shù)據(jù)房山數(shù)據(jù)標注基地的磚紅色大樓,每日吞吐著數(shù)百名數(shù)據(jù)標注人員。這里不僅是他們的工作地點,也是他們周末的燒烤聚會地。
從業(yè)者生活和工作方式改變的背后是數(shù)據(jù)標注行業(yè)拐點的到來:蠻荒時代正在過去。
智研發(fā)布的數(shù)據(jù)標注行業(yè)報告指出,2018年我國數(shù)據(jù)標注與審核行業(yè)規(guī)模達到52.55億元,其中34%左右的業(yè)務(wù)量流向?qū)I(yè)做數(shù)據(jù)采標的第三方公司。
「甲子光年」觀察到,供給側(cè)的馬太效應(yīng)開始顯現(xiàn),體量較大的公司呈現(xiàn)出兩種業(yè)態(tài):一是眾包平臺、二是定制化服務(wù)。
在眾包賽道上,已誕生了Scale AI、Appen為代表的明星獨角獸。而定制化服務(wù)模式對企業(yè)管理和標注員的要求較高,代表玩家包括云測數(shù)據(jù)、百度。
本篇,「甲子光年」以提供定制化標注服務(wù)的云測數(shù)據(jù)為例,看數(shù)據(jù)標注自營模式的發(fā)展與挑戰(zhàn),以及數(shù)據(jù)標注的未來圖景。
成立于2011年的Testin云測公司,以應(yīng)用測試服務(wù)起家;2017年正式啟動了數(shù)據(jù)標注業(yè)務(wù)。截至目前,云測數(shù)據(jù)已擁有近千名全職數(shù)據(jù)服務(wù)人員,服務(wù)領(lǐng)域包括自動駕駛、智能家居、智慧城市、智能金融和新零售等領(lǐng)域,客戶數(shù)量已達數(shù)百級,標注業(yè)務(wù)客單價已達百萬級。
「甲子光年」采訪了云測數(shù)據(jù)總經(jīng)理賈宇航、云測數(shù)據(jù)交付負責人朱文輝、Testin云測CMO張鵬飛、IDG資本???、品覽創(chuàng)始人兼CEO李一帆、某Robo-taxi公司深度學習技術(shù)負責人Ted(化名)及多位數(shù)據(jù)標注從業(yè)者,并實地走訪了云測數(shù)據(jù)標注基地,發(fā)現(xiàn)數(shù)據(jù)標注行業(yè)的以下趨勢正逐漸顯現(xiàn):
第三方數(shù)據(jù)服務(wù)的外包公司正在數(shù)據(jù)標注行業(yè)中獲得更多市場;效率、安全等因素綜合而成的性價比成為當下競爭核心;在定制化服務(wù)的模式中,工具提效和管理優(yōu)化成為構(gòu)筑效率壁壘的關(guān)鍵。
1.拐點將至
Garbage in, garbage out.
數(shù)據(jù)、算力、算法是推動人工智能技術(shù)進步的“三駕馬車”,其中數(shù)據(jù)是人工智能行業(yè)的發(fā)展基石,數(shù)據(jù)對人工智能很重要,“沒有好的數(shù)據(jù),人工智能沒有未來”早已是行業(yè)共識。
新變化在于,隨著人工智能技術(shù)落地場景,不同場景提出了更高質(zhì)量、更多元的數(shù)據(jù)需求。
對視覺數(shù)據(jù)標注需求非常大的自動駕駛領(lǐng)域,很好地展現(xiàn)了數(shù)據(jù)標注服務(wù)的業(yè)態(tài)變化。
在2016年,人工智能隨AlaphGo強勢崛起并引發(fā)一系列創(chuàng)業(yè)、創(chuàng)新活動后,數(shù)據(jù)標注迎來第一次真正意義上的爆發(fā),但由于當時各公司的人工智能業(yè)務(wù)多處于“跑Demo"、“做研發(fā)”的落地前環(huán)節(jié)——在質(zhì)上,用標準數(shù)據(jù)集就可滿足;在量上,規(guī)模也不可與現(xiàn)在相比。
所以當時的數(shù)據(jù)標注行業(yè)門檻較低,小作坊遍地開花,被視為“人工智能背后的富士康工廠”,標注人員也魚龍混雜?!讣鬃庸饽辍笷A副總裁李世民介紹,在粗放期,數(shù)據(jù)標注的工作頁面和網(wǎng)頁版PS十分相似,重復性的簡單拉框就能實現(xiàn)項目需求,一張圖的價格不過幾分錢,外包商全靠數(shù)量獲取微薄利潤。
而以Waymo、小馬智行、文遠知行等為代表的做L4級自動駕駛系統(tǒng)的公司或其他對數(shù)據(jù)有較高要求的公司,則多在內(nèi)部建立標注團隊,解決前期的標注問題。
然而,從近兩年的市場數(shù)據(jù)來看,第三方數(shù)據(jù)標注與審核公司開始變多;原本十分分散的數(shù)據(jù)標注行業(yè)走向?qū)I(yè)化的拐點正在發(fā)生。
智研統(tǒng)計數(shù)據(jù)顯示,2018年我國數(shù)據(jù)標注與審核行業(yè)規(guī)模達到52.55億元,約34%的業(yè)務(wù)量流向?qū)I(yè)做數(shù)據(jù)采標的第三方公司。
其中,專業(yè)第三方數(shù)據(jù)標注與審核公司的業(yè)務(wù)增速始終維持在全行業(yè)的最高水準,超越行業(yè)平均值、人工智能企業(yè)內(nèi)部標注和人工智能外包公司相應(yīng)業(yè)務(wù)增速;即便在增長相對放緩的2017-2018年也高達88.11%。
這背后有三大驅(qū)動力。
一是成本問題——這是專業(yè)第三方公司相比于自營的優(yōu)勢:隨著數(shù)據(jù)量越來越大,如果雇傭大量人力進行數(shù)據(jù)標注,大多數(shù)人工智能公司都無法攻克人員管理的挑戰(zhàn)和承擔隨著數(shù)據(jù)量增長的巨額薪資。
二是質(zhì)量問題——這是更成規(guī)模的專業(yè)第三方公司相比于外包小作坊的優(yōu)勢,自營數(shù)據(jù)團隊的第三方模式在這一點上尤為明顯;因為散兵游勇和小型工作室,較難在崗前培訓、質(zhì)量控制和數(shù)據(jù)安全上做足夠的投入。
三是客戶結(jié)構(gòu)改變帶來的新機會——即除了人工智能公司或有相關(guān)業(yè)務(wù)的科技公司外,各行各業(yè)的企業(yè)都開始更多投入數(shù)字化和人工智能,其中部分企業(yè),一方面有對外采購技術(shù)服務(wù)的習慣和流程,一方面又缺乏非常先進、成熟的內(nèi)部人工智能技術(shù),比如無法像很多人工智能公司那樣,快速開發(fā)自己的標注提效工具,這類公司會更加倚重專業(yè)的第三方服務(wù),這擴大了整體市場規(guī)模。
對數(shù)據(jù)標注需求大且復雜的自動駕駛公司也逐漸從最初的主要依靠自有團隊標注轉(zhuǎn)向部分采購第三方服務(wù)。
某Robo-Taxi公司深度學習技術(shù)負責人Ted(化名)告訴「甲子光年」,現(xiàn)在,公司內(nèi)部的數(shù)據(jù)團隊除了數(shù)據(jù)檢查,還會負責比較特殊的數(shù)據(jù)類型標注,但需要大量數(shù)據(jù)的方向,會找外包公司。
“對于Robo-taxi這種比較specific(專業(yè))的產(chǎn)業(yè)來說,最終目標是實現(xiàn)100%的無人駕駛,這意味著我們的模型不能出錯。”Ted解釋:“但再高精度的機器算法,再全面的傳感器設(shè)置,也只能保證95%的準確率,要想更上一層樓,必須依賴更精準的標注數(shù)據(jù)用于算法提升。”
需求側(cè)的變化,傳導到供給側(cè),引起了一輪洗牌。
一方面,馬太效應(yīng)日顯。
誕生于硅谷的Scale AI,在短短三年內(nèi),成長為市值破十億美元的明星獨角獸,而今年的銷售額已增長至近億美元,4個月前,還宣布完成了1億美元的C輪融資。國內(nèi)巨頭的增速同樣亮眼,例如Testin云測旗下數(shù)據(jù)標注品牌“云測數(shù)據(jù)”,業(yè)務(wù)規(guī)模量每年都在以倍數(shù)的規(guī)模增長。而據(jù)艾瑞咨詢最新報告顯示,2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)年復合增長率為23.5%,數(shù)據(jù)標注賽道主要玩家的增速遠高于行業(yè)平均水平。
另一方面,更多類型的玩家都想來分一杯羹:
國際巨頭亞馬遜、Appen早早入場,已在數(shù)據(jù)標注市場占據(jù)一席之地。國內(nèi)BAT等老牌互聯(lián)網(wǎng)巨頭也將數(shù)據(jù)標注納入自己公司的業(yè)務(wù)范圍,成立項目組(部),對內(nèi)降本,對外創(chuàng)收,如阿里數(shù)據(jù)和京東眾智。
近來,行業(yè)頭部企業(yè)進一步涌現(xiàn),如2015年成立的Scale AI,3年躋身獨角獸;以測試起家的Testin云測在2017年積極布局數(shù)據(jù)標注領(lǐng)域。
仔細分析這些主要玩家,其實模式主要有兩種:一是眾包平臺,二是自營團隊。
前者以“需求公司——標注公司作為數(shù)據(jù)標注平臺——第三方標注團隊協(xié)作”為主要結(jié)構(gòu),起到串聯(lián)有數(shù)據(jù)標注需求的客戶以及零散的大眾志愿者的作用。
后者則省卻了中間眾包商環(huán)節(jié),形成“需求公司——數(shù)據(jù)標注公司”的垂直結(jié)構(gòu)。
“目前,大多數(shù)公司采用眾包模式,國際上大名鼎鼎的如Scale AI、Amazon Mechanical Turk以及澳洲Appen走的都是這條道路。”李世民說。
而云測數(shù)據(jù),則選擇了玩家更少、專業(yè)性更高的一條路——定制化數(shù)據(jù)服務(wù)。
云測數(shù)據(jù)的選擇來自對市場和自身的思考、判斷。
“兩種模式其實是共存的,客戶可以根據(jù)自身需求進行取舍。”云測數(shù)據(jù)交付部門負責人朱文輝評價道,但就當前標注規(guī)則愈加復雜、交付周期縮短且對安全性要求提高的市場趨勢來說,定制化模式更有前景。
云測數(shù)據(jù)總經(jīng)理賈宇航告訴「甲子光年」,隨著人工智能對數(shù)據(jù)采標的復雜度和精細度要求變高,眾包在現(xiàn)有技術(shù)條件下,很難實現(xiàn)品控。
“以人臉識別為例,以前的需求是拉框、標注五官,現(xiàn)在需要標注幾百個點,精確到3-5像素以內(nèi)。”賈宇航補充說:“我們希望通過精準高質(zhì)、獨立安全的數(shù)據(jù)幫助客戶快速構(gòu)建核心壁壘。”
此外,云測數(shù)據(jù)從測試業(yè)務(wù)中繼承了to B的企業(yè)基因,一方面積累了品牌口碑和客戶資源,另一方面也貫徹了嚴格把控質(zhì)量的管理風格,這也是云測數(shù)據(jù)入局數(shù)據(jù)標注的優(yōu)勢所在。
Testin云測投資方,IDG資本??饪偨Y(jié)道,效率和貼合度是當前數(shù)據(jù)標注供應(yīng)商競爭的核心:“定制化可以用最高效的方式提供人工智能落地前最后一公里的數(shù)據(jù)服務(wù)。”
他認為,隨著人工智能產(chǎn)品進入落地多元行業(yè)和場景,作為人工智能算法的“養(yǎng)料”,數(shù)據(jù)也向著場景化發(fā)展??梢哉f在算法、算力沒有重大突破的前提下,場景化的數(shù)據(jù)就是核心優(yōu)勢。因此貼合度較高的定制化服務(wù)能力就顯得尤為重要。
2.雙面“做重”
從實踐效果看,云測數(shù)據(jù)的選擇在市場和客戶之中獲得了很多良性反饋。
“我們的業(yè)務(wù)規(guī)模量每年都在以倍數(shù)的規(guī)模增長。”賈宇航告訴「甲子光年」,云測數(shù)據(jù)標注服務(wù)了安防、駕駛、金融、家居等領(lǐng)域的上百家企業(yè)。
“自動駕駛產(chǎn)業(yè)是比較適合定制化服務(wù)的。”Ted表示將跟云測數(shù)據(jù)建立長期的合作關(guān)系。
Ted接觸過很多數(shù)據(jù)標注供應(yīng)商,包括硅谷的Scale AI,國內(nèi)的云測數(shù)據(jù)、BasicFinder和百度數(shù)據(jù)等,他采取“試標注”這種遍地撒網(wǎng)的方法——將相同的標注樣本給到不同的標注公司,根據(jù)標注結(jié)果擇優(yōu)合作——挑選最具“性價比”合作伙伴。
作為客戶,Ted認為,首先,打價格戰(zhàn)的時代已經(jīng)過去了,同一價格區(qū)間內(nèi),質(zhì)優(yōu)者勝。
“質(zhì)量代表著速度。”李世民解釋說,人工智能工程師的時薪很高,企業(yè)雇傭他們處理數(shù)據(jù)的成本也很高,一旦數(shù)據(jù)失準,在上游的數(shù)據(jù)標注和下游的人工智能工程師兩端,會產(chǎn)生雙重的成本浪費。
例如,在一個機器學習的完整工作鏈條中,數(shù)據(jù)清洗和標注在總?cè)蝿?wù)中所占的時間比例超過50%。如果無法保證數(shù)據(jù)的準確性,便會出現(xiàn)無效訓練和無限返工的惡性循環(huán),對寸時寸金的人工智能公司行業(yè)而言,這無疑會造成巨大的負面影響。
“畢竟是勞動密集型工種,定制化的人員培訓很重要。在全景標注和3D點云這類難點項目上體現(xiàn)得尤為明顯。”Ted補充說,全景圖中標的物多且雜亂,稍不注意就會有錯漏,整張圖都要打回重標;3D點云中,距離較遠的物體點數(shù)較少,很難識別,更別提辨別朝向了。
一張全景分割或3D點云的標注單價高達20-30元(價格以項目需求為準,不作為行業(yè)參考價),但Ted看來,“即便價格高一點,我也愿意跟云測數(shù)據(jù)這樣互動性強、準確度高、保密性好的數(shù)據(jù)標注公司合作。”
其實,對于整個人工智能行業(yè)來說,高質(zhì)數(shù)據(jù)的價值都在日益凸顯。
曾負責過企業(yè)軟件采購的朱文輝,對成本和質(zhì)量的取舍之道很有心得:“手頭也有過幾百上千萬的預(yù)算,特別明白客戶的心態(tài)——寧愿多付錢也要質(zhì)量過關(guān)的產(chǎn)品。”
其次,在選擇供應(yīng)商時,互聯(lián)網(wǎng)巨頭不如獨立第三方數(shù)據(jù)標注公司吃香。
“大廠的業(yè)務(wù)水準雖然非常advanced(先進),但考慮到母公司可能也有自動駕駛的團隊或業(yè)務(wù),難免會擔心自家數(shù)據(jù)被拿去訓練別人的模型;再加上要價不菲,所以合作并不多。”
Ted繼續(xù)補充,如果跟第三方數(shù)據(jù)標注公司合作,就不用擔憂這種問題。他們要價合理,而且既不會把數(shù)據(jù)外泄,也不會自用。
最后,固定數(shù)據(jù)標注團隊的優(yōu)勢還在于,長期服務(wù)某類項目能實現(xiàn)自我迭代。
專注于人工智能視覺領(lǐng)域的物品識別的品覽數(shù)據(jù)科技也是云測數(shù)據(jù)的客戶之一,其創(chuàng)始人兼CEO李一帆認為,對于一些需要搭建測試環(huán)境、要求專業(yè)知識儲備或涉及復雜場景的數(shù)據(jù)標注任務(wù)來說,標注人員培訓成本較高,如果長期有這樣高價值的標注需求,定制化的性價比反而更高。
把數(shù)據(jù)效率放在第一位的自營團隊,很擅長應(yīng)對這類需要專人快速響應(yīng)的標注需求。
朱文輝告訴「甲子光年」,近年來,客戶面臨的競爭壓力變大,花錢更為謹慎。雖然整個市場對數(shù)據(jù)標注的需求在上升,但場景差異變大,相應(yīng)地人力成本也在上升。“量小、批次多、難度大是整個數(shù)據(jù)標注市場的大趨勢。”朱文輝補充道。
另外,自營團隊一般會根據(jù)項目組織人員,在兩三批數(shù)據(jù)的交付之后,標注員會變得更加熟練,效率也會自然跟著提高。
但任何一種模式都是雙刃劍,定制化也有挑戰(zhàn)和短板,即人工成本和管理成本高,且應(yīng)對需求的彈性不足。
對標Scale AI的Graviti創(chuàng)始人崔運凱評價說:“定制化模式對抗業(yè)務(wù)潮汐的能力較差。”
需求的彈性會導致自營團隊模式出現(xiàn)人員冗余或人員短缺的問題,任務(wù)分發(fā)上不如眾包公司靈活;人力成本也高,尤其隨著數(shù)據(jù)標注團隊的線性擴張,管理團隊層級會增多,人數(shù)會指數(shù)級增長。
3. 效率壁壘
經(jīng)緯的創(chuàng)始合伙人張穎曾對創(chuàng)業(yè)公司提出短中期內(nèi)最有意義的七條建議,第一條便是:所有輕公司以后都會做重,也必須做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。
其實不管是重的定制化服務(wù),還是輕的眾包平臺,表面的輕重之外,真正核心的是滿足市場當下需求與公司自身效率之間的平衡。
從需求的角度來說,目前市場的兩個特點,能一定程度上自然規(guī)避定制化的弊端。
首先,整個市場仍在放量增長,尤其是傳統(tǒng)行業(yè),會成為數(shù)據(jù)標注的新增長引擎。
2017年賈宇航從Testin云測北美事業(yè)部回到北京總部,并與很多美國的人工智能從業(yè)者都保持著密切聯(lián)系,他認為中國市場具有獨特性,傳統(tǒng)行業(yè)智能化升級對數(shù)據(jù)標注市場的拓展?jié)摿Σ豢尚∮U。
在五年的旅美生涯中,賈宇航觀察到,中國人的模式創(chuàng)新意識更強,更容易出現(xiàn)分散式的產(chǎn)業(yè)革新,“美國全靠Google和Amazon這樣的巨頭帶動,相比之下,中國人工智能落地的動力多了一級,這將是一個高新科技產(chǎn)業(yè)和傳統(tǒng)產(chǎn)業(yè)相向而行的過程,其中的市場空間是無窮的。”
隨著人工智能在金融、醫(yī)療、安防等多個領(lǐng)域?qū)崿F(xiàn)技術(shù)落地,人工智能公司對數(shù)據(jù)的使用逐漸有“大”的趨勢,整個行業(yè)正在逐漸向多模態(tài)、多場景、高精度的方向發(fā)展。
基于這一洞察,企業(yè)服務(wù)型公司Testin云測擴展了數(shù)據(jù)標注業(yè)務(wù)品牌云測數(shù)據(jù),通過自建數(shù)據(jù)場景實驗室和數(shù)據(jù)標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、新零售等領(lǐng)域提供定制化的數(shù)據(jù)采集、數(shù)據(jù)標注服務(wù)。今年早些時候,Testin云測CTO陳冠誠曾在采訪中表示,云測數(shù)據(jù)在AI數(shù)據(jù)采集標注行業(yè)將繼續(xù)扮演“同行者”的角色,除了滿足客戶的需求之外,還希望提供更高效率的服務(wù):“我們一直在用工程化迭代的技術(shù)不斷改進采集標注的流程效率、加快人工標注速度。”
其次,當前市場還處于藍海,所以潮汐現(xiàn)象和浪費不明顯。
提及業(yè)務(wù)潮汐的風險,賈宇航答道:“我認為這個問題目前不對我們造成任何困擾,市場供需極不平衡,打個比方,我們和客戶之間比較類似高精尖企業(yè)和人才之間的供給關(guān)系,需求遠大于供應(yīng)量。”
很多數(shù)據(jù)標注從業(yè)者也有類似的評價,有人將數(shù)據(jù)標注市場形容成“一片商業(yè)藍海”,也有人說“同行之間甚至都算不上競爭對手”。
說法大同小異,結(jié)論卻很一致:目前人工智能行業(yè)對精確優(yōu)質(zhì)、安全獨立的數(shù)據(jù)標注服務(wù)需求極大。
Testin云測CMO張鵬飛也強調(diào),“從整體看來,AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標準和強調(diào)重視。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標桿,只有以這種負責的態(tài)度來服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個社會和人類進程”。
整個行業(yè)在可預(yù)見的很長時間內(nèi)都會處于供不應(yīng)求的賣方市場。
此外,對于Testin云測這一類企業(yè)服務(wù)賽道上的明星玩家來說,此時入場擴張數(shù)據(jù)標注業(yè)務(wù)更是近水樓臺先得月——他們以往的測試等業(yè)務(wù)已積累了一批現(xiàn)成的渠道商。
連續(xù)創(chuàng)業(yè)者李一帆起初是Testin云測測試業(yè)務(wù)的客戶,2018年成立品覽后有了數(shù)據(jù)標注的新需求,他選擇了跟“老伙計”Testin云測繼續(xù)合作。
“其實我也向其他數(shù)據(jù)標注公司詢過價,最終選擇云測數(shù)據(jù)是出于兩方面的考慮。”李一帆解釋道:“一是因為更換合作機構(gòu)的切換成本和溝通成本太高;二是相對于其他數(shù)據(jù)標注機構(gòu),對云測數(shù)據(jù)的專業(yè)度和服務(wù)質(zhì)量比較了解,更看好云測數(shù)據(jù)的質(zhì)量和安全性把控,和對人工智能行業(yè)的前瞻思考,也更有信心。”
云測數(shù)據(jù)的人工智能數(shù)據(jù)團隊運營至今已制定了一套包含任務(wù)分配、需求分析、需求確認、數(shù)據(jù)清洗、試標確認、進度控制、質(zhì)量保障等流程的完整作業(yè)體系。
牛奎光評價道,Testin云測一開始更多的是提供基于質(zhì)量工程化的服務(wù),隨著人工智能時代的到來,對人工智能企業(yè)提供數(shù)據(jù)服務(wù),實際上也是在加速移動互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)、人工智能產(chǎn)業(yè)的生命周期。
朱文輝告訴「甲子光年」,就整個數(shù)據(jù)標注市場而言,合作與競爭都是下一個階段的議題,同行還在自覺共建行業(yè)生態(tài)和品牌聲譽,“把蛋糕做大”才是當前的發(fā)展重心。
此外,自營團隊做定制化數(shù)據(jù)服務(wù),是不是一定效率低下?
可以用制造業(yè)來類比,半手工的作坊和機器大工業(yè)生產(chǎn),雖然同屬“制造”,但效率天差地別。差距由兩個關(guān)鍵因素導致,一是自動化水平,也就是工具提效;二是生流程管理——云測數(shù)據(jù)在這兩方面都已有較多探索。
在工具提效方面,云測數(shù)據(jù)自研了一套可以支持圖片、語音、文本等多品類的標注工具,并開發(fā)了三維標注工具,尤其是在3D點云的標注系統(tǒng)中優(yōu)化了渲染引擎,保證整個過程的流暢和快捷,當屬業(yè)內(nèi)領(lǐng)先。
“我們注意到在3D點云連續(xù)幀標注時,前后幀的切換非常耗時,云測數(shù)據(jù)的web GL工程師通過自研渲染工具把緩沖時長縮減至十分流暢。”賈宇航在北京總部向「甲子光年」展示了優(yōu)化之后的標注工具。
據(jù)朱文輝介紹,云測組建了一支專門的研發(fā)團隊,“研發(fā)團隊里有產(chǎn)品經(jīng)理、前后端工程師”等,他們會針對不同領(lǐng)域循環(huán)式地改進標注工具,并根據(jù)客戶需求,實時反饋、實時更新、實時研發(fā)。“平均每季度或更快有一次較大的迭代。”朱文輝回憶道:“迭代之后有些領(lǐng)域的效率提高了三倍不止。”云測數(shù)據(jù)從啟動伊始,就十分重視技術(shù)提效,陳冠誠曾在采訪中提及:“(云測)數(shù)據(jù)采集標注的客戶遍布各行各業(yè),對于文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)甚至是激光雷達的3D點云數(shù)據(jù),我們都可以用工程化迭代來做高效的標注和流程管理,提高效率,幫助客戶成功。”在流程管理方面,云測數(shù)據(jù)也建立起一套包含崗前培訓、早部署晚復盤、分項目人工質(zhì)檢的管理系統(tǒng)。朱文輝告訴「甲子光年」,目前云測數(shù)據(jù)在華東、華北、華南共設(shè)有三個標注基地,還有幾個基地在部署中,現(xiàn)在共有千人規(guī)模左右的數(shù)據(jù)服務(wù)人員。“新人都會經(jīng)過兩個月的崗前培訓”,朱文輝說,隨著行業(yè)要求的提高,人員也在更新?lián)Q代,我們的激勵機制和晉升機制比較完善,還提供園區(qū)食堂的餐補,年輕人的離職率并不高。”
除了積極招兵買馬,云測數(shù)據(jù)還有相當一部分的項目經(jīng)理是從傳統(tǒng)制造業(yè)轉(zhuǎn)型而來,“這些人很懂環(huán)環(huán)相扣的流程管理,對包括風險、成本等流程節(jié)點的控制很在行。”朱文輝補充道。
??夥Q:“云測數(shù)據(jù)的數(shù)據(jù)服務(wù)優(yōu)勢,除了數(shù)據(jù)質(zhì)量、規(guī)?;酝?其效率優(yōu)勢也很突出,因為企業(yè)產(chǎn)品都有對應(yīng)的發(fā)布周期,對效率的要求也會越來越高。”
朱文輝認為,誰能優(yōu)先突破認知效率、管理效率和標準化,誰就很有可能在一眾數(shù)據(jù)標注公司中拔得頭籌。
4.進化:新物種的可能性
從整個數(shù)據(jù)標注賽道來看,這個此前”隱于聚光燈之外”的行業(yè),正在走向大眾的視野,展現(xiàn)更多可能性。
一是可預(yù)測的,數(shù)據(jù)量的爆發(fā)增長。
當前,人工智能正全面加速產(chǎn)業(yè)落地。德勤預(yù)測,2025年世界人工智能市場將超過6萬億美元,2017-2025年人工智能復合增長率將達30%。
賈宇航認為5G到來之后,整個人工智能行業(yè)數(shù)據(jù)量將會向橫、縱拓展。
橫向拓展,是人工智能從科技公司走入各行各業(yè)公司。
比如賈宇航告訴「甲子光年」,云測數(shù)據(jù)大部分的客戶來自智慧城市和駕駛等與人工智能結(jié)合緊密的領(lǐng)域,但一個明顯的新發(fā)展是,來自金融、家居等傳統(tǒng)行業(yè)的客戶正逐漸增加,而在兩年前,這類客戶的占比幾乎為0。各行各業(yè)的數(shù)字化、智能化,很可能成長為新的增長點。
縱向的拓展則是,隨通信、芯片等基礎(chǔ)設(shè)施的發(fā)展,物聯(lián)網(wǎng)潮流下,硬件、傳感器數(shù)量持續(xù)增長,相應(yīng)的數(shù)據(jù)量持續(xù)增長,各行業(yè)、各場景都將經(jīng)歷更深程度的數(shù)字化。
“從深度學習、機器學習的發(fā)展趨勢和應(yīng)用方向可以明顯看到,不管是鉆得更深或是在應(yīng)用層面鋪得更廣,我們都會需要更多數(shù)據(jù)。我覺得這個趨勢至少還能保持十幾年。”Ted相信,未來數(shù)據(jù)標注的重要性也許還會跨上一個新臺階。在現(xiàn)有以監(jiān)督學習為主的技術(shù)環(huán)境下,數(shù)據(jù)量爆發(fā)意味著標注需求的爆發(fā)。
二是,標注業(yè)務(wù)本身的智能化、人工智能化。
賈宇航告訴「甲子光年」,隨著算法的突破,圖像生成技術(shù)會極大地提升數(shù)據(jù)采集和數(shù)據(jù)標注行業(yè)門檻。針對企業(yè)的數(shù)據(jù)需求,將更加定制化,同時也凸顯數(shù)據(jù)需求定制中的策略性?,F(xiàn)在的技術(shù)可以通過數(shù)據(jù)增強技術(shù)額外合成的數(shù)據(jù)來模擬移位(Translation)、視角(Viewpoint)、大小(Size)、照明(Illumination)等等條件,生成更多可用于訓練數(shù)據(jù)。具體到AI數(shù)據(jù)服務(wù)中,在數(shù)據(jù)采集和標注環(huán)節(jié),AI企業(yè)對數(shù)據(jù)服務(wù)商有更加嚴格的要求,如環(huán)境,光線,被采樣本等采集環(huán)境的搭建。AI企業(yè)擁有這些純凈數(shù)據(jù),可以更加有效的拓展更多數(shù)據(jù),達到數(shù)據(jù)增強的目的。
例如,“通過定制化的數(shù)據(jù)采集方法,客戶可以規(guī)定特定的光線角度和綠墻背景,得到一組可塑性較強的原始數(shù)據(jù),再通過變換背景、合成光線、調(diào)轉(zhuǎn)光源角度等等方法,得到成百上千倍的衍生數(shù)據(jù)。”賈宇航也強調(diào),這樣的元數(shù)據(jù)對相關(guān)條件的控制往往異常嚴格,因此對第三方數(shù)據(jù)標注承包商的要求也更高。
“屆時勞動密集型的產(chǎn)業(yè)特征將被改變,方法論和策略性將更優(yōu),采集和標注的時間成本也將大大縮小,數(shù)據(jù)標注公司有可能都將進化為高精尖的定制化團隊。”賈宇航補充道。
也有不少從業(yè)者認為預(yù)標注技術(shù)和半自動化校驗可能將推動數(shù)據(jù)標注行業(yè)進一步進化。
“在特定場景中,預(yù)標注工具把小數(shù)據(jù)變成模型再去預(yù)標,縮小人工調(diào)節(jié)的空間。”李一帆判斷,預(yù)標注技術(shù)的逐漸成熟或許會在未來大幅降低標注成本。
Ted也提到,Scale AI聚集了一幫人嘗試用算法來輔助標注,如果成功,只需幾個點,就可以生成整個面的自動標注,這將會極大地提高標注效率。
但就目前的市場現(xiàn)狀來看,預(yù)標注技術(shù)在很多細節(jié)上并不精準,Ted認為,距離預(yù)標注技術(shù)的應(yīng)用落地,還需要很長一段時間。
在數(shù)據(jù)質(zhì)檢流程上,也有用自動化技術(shù)和人工智能技術(shù)提效的空間。
“如果可以用半自動化的方式實現(xiàn)驗收或是自動對比,可以節(jié)省掉相當一部分管理層的人力成本。”Ted提出了另一個可能會讓數(shù)據(jù)標注行業(yè)更有效率的方式,并不是要用機器取代人工標注,而是用機器輔助人工標注。
賈宇航也有相似的觀點,他表示,云測會投入更多人力進行驗收工具的研發(fā),提升質(zhì)檢效率,提高標注質(zhì)量。
隨著人工智能技術(shù)與場景的結(jié)合逐漸深化,科技創(chuàng)業(yè)者們進入了一片沒有航海圖的水域,對于伴生的數(shù)據(jù)標注行業(yè)來說,未來的航程同樣值得期待。
這真像劉禹錫的那句:“沉舟側(cè)畔千帆過,病樹前頭萬木春”。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。