作為經(jīng)濟發(fā)展的底座,基礎(chǔ)設(shè)施建設(shè)決定了經(jīng)濟發(fā)展的可能性和未來邊界。 過去40年,以“鐵公基”為代表的老基建支撐了中國經(jīng)濟高速發(fā)展,成就了中國經(jīng)濟“快”的奇跡。 未來40年,以5G、AI、物聯(lián)網(wǎng)、智能計算等新一代技術(shù)為驅(qū)動的新基建,將肩負起中國經(jīng)濟由“快”向“好”的重擔(dān)。
在剛剛結(jié)束的全國“兩會”中,“新基建”首次進入政府工作報告,成為會議期間被代表提及最多的高頻詞匯。
在新基建分支中,又以AI最為引人矚目。百度、阿里、騰訊、搜狗、科大訊飛等一眾中國科技巨頭CEO,紛紛提交與AI相關(guān)的提案。
在“新基建”浪潮下,AI場景規(guī)?;涞嘏c應(yīng)用的速度不斷被刷新,但隨著AI應(yīng)用由淺層向深層推進,不免出現(xiàn)根基不牢、“虛火”旺盛的癥結(jié),導(dǎo)致其在商業(yè)化應(yīng)用方面仍然裹足不前。
是什么讓這樣一項擁有巨大潛力的技術(shù)面臨窘境?又是什么扼住了AI應(yīng)用的“咽喉”?這一切都指向了一個看似微不足道,卻可以決定AI前途命運的基本要素——AI數(shù)據(jù)。
上層建筑與底層基座“失衡”數(shù)據(jù)扼住AI應(yīng)用的“咽喉”
如果想要聚沙成塔,那么塔基的堅實程度將決定塔頂?shù)母叨取?/p>
當AlphaGo戰(zhàn)勝李世石,AI領(lǐng)域遂掀起熱潮,ImageNet數(shù)據(jù)集、GPU算力支持和深度學(xué)習(xí)算法“三駕馬車”整裝待發(fā),AI商業(yè)落地到了爆發(fā)前夕。
然而,人們期待中的爆發(fā)卻遲遲未能到來,一切猶如一場海市蜃樓。
縱觀整個AI行業(yè),如今在算力、算法層面已達到階段性成熟,但是在決定AI能力最基本的數(shù)據(jù)領(lǐng)域,卻鮮有企業(yè)攀越高峰,這就造成上層應(yīng)用與底層基座的嚴重失衡。
俗話說:根基不牢,地動山搖。
缺乏牢固的根基,再華麗的上層建筑也終究逃脫不了坍塌的命運,這也是扼住AI應(yīng)用咽喉的癥結(jié)所在。
根據(jù)中國信息通信研究院發(fā)布的《2018年人工智能發(fā)展白皮書》顯示,在數(shù)據(jù)層面,主要存在流通不暢、數(shù)據(jù)質(zhì)量良莠不齊和關(guān)鍵數(shù)據(jù)集缺失等問題。
當大部分AI企業(yè)在應(yīng)用層面激戰(zhàn)正酣,支撐AI技術(shù)的算法就像新生兒一樣稚嫩,需要數(shù)以百萬計有標注的高質(zhì)量數(shù)據(jù)來教它們“分辨”。
比如,要想讓自動駕駛汽車算法學(xué)會識別路標,或者區(qū)分孩子和動物,人們必須采集所有可能遇到的所有道路場景,并對其中的物體進行“標簽化”的標注。
對于深度學(xué)習(xí)算法而言,沒有標注的數(shù)據(jù),就沒有AI算法模型。而模型迭代和調(diào)整,則需要更多的精準數(shù)據(jù)。越是準確的算法,就越依賴于大量高質(zhì)量的標注數(shù)據(jù)。
Google技術(shù)大牛Jeff Dean曾在公開課上展示過海量數(shù)據(jù)的訓(xùn)練結(jié)果,神經(jīng)網(wǎng)絡(luò)算法中準確率和數(shù)據(jù)規(guī)模及質(zhì)量持續(xù)成正比。
而業(yè)界也達成了普遍共識,即“大量高質(zhì)數(shù)據(jù)+普通模型”往往會比“普通數(shù)據(jù)+高級模型”的效果要好。
想要更加契合AI商業(yè)落地需求、解決行業(yè)具體痛點,就需要大量經(jīng)過標注處理的數(shù)據(jù)做算法訓(xùn)練支撐。
如果沒有高質(zhì)量的標注數(shù)據(jù),即使是初期具備算法優(yōu)勢的公司,也會被后起具備數(shù)據(jù)優(yōu)勢的公司所碾壓。
如美國加州科技大學(xué)校長秦志剛教授所說:“數(shù)據(jù)標注是AI產(chǎn)業(yè)的基礎(chǔ),是機器感知現(xiàn)實世界的起點。從某種程度上來說,沒有經(jīng)過標注的數(shù)據(jù)就是無用數(shù)據(jù)。”
可以說,數(shù)據(jù)標注的質(zhì)和量,將決定AI落地的最終效果。
場景化的數(shù)據(jù)標注服務(wù)成為新基建下AI產(chǎn)業(yè)化的“催化劑”
從整個數(shù)據(jù)標注行業(yè)看,過去這一行業(yè)曾長期處于粗放的發(fā)展模式,數(shù)據(jù)粗制、混亂、復(fù)用的情況屢見不鮮。
但隨著AI與各個產(chǎn)業(yè)結(jié)合得愈加緊密,AI商業(yè)化程度進入新的高度,數(shù)據(jù)小作坊的模式也已不適用于AI產(chǎn)業(yè)化落地的數(shù)據(jù)需求。
在這其中,定制化、場景化的數(shù)據(jù)服務(wù)更是成為AI商業(yè)化的關(guān)鍵,這意味著必須有能力超群的企業(yè)站出來,重新定義數(shù)據(jù)標注行業(yè)的規(guī)則。
目前,數(shù)據(jù)標注行業(yè)的企業(yè)機構(gòu)主要分為三類:第一類是AI公司內(nèi)部的標注部門,第二類是數(shù)據(jù)標注眾包平臺,第三類是以場景化數(shù)據(jù)采集和標注見長的公司。
第一種以金融、安防等領(lǐng)域企業(yè)為代表,大量數(shù)據(jù)標注任務(wù)由公司內(nèi)部完成。
第二種是眾包平臺,以亞馬遜眾包平臺Mechanical Turk為代表,基本按照“需求公司——眾包平臺——多個互聯(lián)網(wǎng)用戶”的模式完成。
第三種是以云測數(shù)據(jù)為代表的,專門從事定制化數(shù)據(jù)采集和標注的企業(yè)。
這類企業(yè)具備非常完整的數(shù)據(jù)服務(wù)鏈條,能夠滿足于定制化、場景化、高質(zhì)量的數(shù)據(jù)服務(wù)需求,以精細化的數(shù)據(jù)采集和標注標準,徹底撕掉了傳統(tǒng)數(shù)據(jù)標注行業(yè)的“草莽”標簽。
以云測數(shù)據(jù)為例,通過自建數(shù)據(jù)場景實驗室和數(shù)據(jù)標注基地,實現(xiàn)了從數(shù)據(jù)采集、數(shù)據(jù)清洗,數(shù)據(jù)標注、標注平臺私有化部署、到標注駐場服務(wù)的高質(zhì)量、場景化的一站式數(shù)據(jù)采集標注服務(wù)。
針對AI每個細分領(lǐng)域的特點,云測數(shù)據(jù)都配備了專業(yè)人員進行AI數(shù)據(jù)服務(wù),針對企業(yè)遇到的數(shù)據(jù)需求提供最優(yōu)方案。
項目前期,云測數(shù)據(jù)項目經(jīng)理會幫助客戶梳理更貼合實際情況的需求,之后再逐漸引入標注和質(zhì)檢人員,通過每天的溝通和培訓(xùn),以確保每個人能夠理解并掌握標注有關(guān)技術(shù),試標驗收合格后,再進行大批量的規(guī)模性標注。
為了確保標注人員能夠做出正確的判斷,云測數(shù)據(jù)還配備專門的培訓(xùn)師,對每個行業(yè)細分領(lǐng)域的專業(yè)知識進行培訓(xùn),以及標注技能和業(yè)務(wù)流程的培訓(xùn)。
在數(shù)據(jù)標注完成后,云測數(shù)據(jù)還會進行質(zhì)檢和抽檢,對于準確率達不到要求的數(shù)據(jù)會打回重新標注,從而確保數(shù)據(jù)的高質(zhì)量輸出。
在智慧城市領(lǐng)域,云測數(shù)據(jù)可以提供全類型的數(shù)據(jù)標注與定制化數(shù)據(jù)采集,如:人臉打點、人體拉框、目標跟蹤、語義分割標注,異常行為、步態(tài)、Re-ID、路面物體采集等。
在自動駕駛領(lǐng)域,云測數(shù)據(jù)提供多維度、多模態(tài)的數(shù)據(jù)服務(wù),如:在車內(nèi)場景中涉及到疲勞監(jiān)測、動作識別、場景光線等一切場景,以及在車外環(huán)境中更復(fù)雜的障礙物、道路、天氣、地點、車道線、路標,以及一些長尾場景。
同時,可實現(xiàn)連續(xù)幀標注、2D圖像框選、圖像分割、3D點云標注、2D和3D融合標注等眾多功能。
在AI技術(shù)中重要分支的自然語言處理(NLP)領(lǐng)域,云測數(shù)據(jù)已經(jīng)為許多商業(yè)化應(yīng)用提供高質(zhì)量的NLP數(shù)據(jù)支撐,如:機器翻譯、輿情監(jiān)測、問答機器人、客服機器人、智能音箱、智能問診等。
以智能客服應(yīng)用為例,云測數(shù)據(jù)為單個場景提供的NLP數(shù)據(jù)的意圖標注,就分為10-20個大類,上百個子類,根據(jù)業(yè)務(wù)需求可能還會有進一步的標注細分。
同時,云測數(shù)據(jù)除了對NLP數(shù)據(jù)進行對話意圖、領(lǐng)域、槽位等進行判斷和標注,還可以進行多角度的泛化。
目前,云測數(shù)據(jù)業(yè)務(wù)范圍已經(jīng)覆蓋智能駕駛、智慧城市、智能家居、智慧金融、新零售等多個領(lǐng)域,成為眾多AI企業(yè)和各個行業(yè)龍頭企業(yè)的合作伙伴。
正如云測數(shù)據(jù)總經(jīng)理賈宇航所說,“通過使用定制場景化數(shù)據(jù)服務(wù),企業(yè)可以將自己算法的識別精度推到一個新的高度,進而落地成為產(chǎn)品被用戶使用?!?/p>
從野蠻生長走向精耕細作AI數(shù)據(jù)標注手握新基建未來的“密鑰”
AI領(lǐng)域流行一種說法:如果AI是一輛車,那么數(shù)據(jù)是燃料,算力是車輪,算法則是發(fā)動機。也就是說,沒有優(yōu)質(zhì)的數(shù)據(jù),AI只能是空中樓閣。
根據(jù)《2019年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書》統(tǒng)計,早在2018年,高質(zhì)量的數(shù)據(jù)資源定制服務(wù)就占中國AI基礎(chǔ)數(shù)據(jù)服務(wù)的86%,可見優(yōu)質(zhì)數(shù)據(jù)市場之潛力巨大。
事實上,AI對于標注數(shù)據(jù)質(zhì)量的新要求,也是數(shù)據(jù)標注行業(yè)未來發(fā)展方向的一個重要縮影。越來越多的AI企業(yè)意識到,高質(zhì)量的數(shù)據(jù)采集和標注是影響人工智能項目落地的關(guān)鍵。
當新基建的大潮席卷而來,作為AI新基建的核心生產(chǎn)要素,數(shù)據(jù)標注如今迎來了品質(zhì)化、精細化、場景化的全新發(fā)展階段。
以云測數(shù)據(jù)為代表的數(shù)據(jù)標注行業(yè)領(lǐng)軍企業(yè),正在通過提升AI數(shù)據(jù)采集和標注的質(zhì)量、效率和安全,驅(qū)動AI成為推動社會前進的新引擎。
例如,在AI數(shù)據(jù)的質(zhì)量和效率方面,云測數(shù)據(jù)在軟、硬件的投入上下足了功夫。
一方面,云測數(shù)據(jù)在華北、華東、華南搭建了專業(yè)的場景實驗室和數(shù)據(jù)標注基地,進行相應(yīng)的AI數(shù)據(jù)交付。同時,自研出專業(yè)的、擁有自主知識產(chǎn)權(quán)的數(shù)據(jù)標注工具,提升標注效率。
另一方面,云測數(shù)據(jù)設(shè)計了從創(chuàng)建任務(wù)、分配任務(wù)、標注流轉(zhuǎn)、到質(zhì)檢/抽檢環(huán)節(jié)和最后的驗收等更完善的管理流程,每個環(huán)節(jié)有相應(yīng)專業(yè)人員來把控數(shù)據(jù)標注的質(zhì)量和時間節(jié)點,進行上下游工作環(huán)節(jié)銜接,得以在保證數(shù)據(jù)交付質(zhì)量的前提下,真正提高生產(chǎn)效率。
在AI數(shù)據(jù)的安全方面,云測數(shù)據(jù)也始終堅守著AI數(shù)據(jù)安全隱私的紅線。
對于AI行業(yè)而言,如何在合理使用數(shù)據(jù)的前提下保障用戶隱私、杜絕數(shù)據(jù)濫用行為一直都是每個AI企業(yè)必須要面對的課題。
作為一家為獨立第三方身份的數(shù)據(jù)服務(wù)商,云測數(shù)據(jù)在數(shù)據(jù)交付客戶后清毀數(shù)據(jù)不留底,絕不進行二次使用。
同時,云測數(shù)據(jù)與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī)。
此外,還建立一整套相關(guān)的數(shù)據(jù)保障機制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護、乃至標準化的流程作業(yè)體系等,充分保障數(shù)據(jù)安全。
舍恩伯格在《大數(shù)據(jù)時代》中預(yù)言:“數(shù)據(jù)可以量化一切,文字變成了數(shù)據(jù),方位變成了數(shù)據(jù),溝通變成了數(shù)據(jù),直到萬物的數(shù)據(jù)化?!?/p>
以數(shù)據(jù)價值為支撐的數(shù)字經(jīng)濟正成為推動社會前進的主要模式,由AI等創(chuàng)新技術(shù)驅(qū)動的數(shù)字化轉(zhuǎn)型成為新基建的核心。
而驅(qū)動這趟科技列車前行的卻是一個個看似微不足道的數(shù)據(jù),這些被標注的數(shù)據(jù)就像娟娟細流,最終將匯聚在AI新基建的大江大河之中,幻化成澎湃的時代波濤奔涌向前。
【關(guān)于科技云報道】
專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。