上個世紀五十年代,麥卡錫當時為達特茅斯會議命名了一個在那時看起來別出心裁的名字:人工智能夏季研討會(Summer Research Project on Artificial Intelligence),由此“人工智能(ArtificialIntelligence)”這個概念開始走向世界。
歷經了半個多世紀的AI一直都不溫不火,但近幾年AI突然爆發(fā),在人工智能大量邊緣設備落地的同時,將其推上一個更為興盛的階段:圍棋人工智能程序AlphaGo橫掃棋壇,傳統(tǒng)與文化相結合獨具一格的“AI茶館”,甚至還有騰訊去年在“AI+醫(yī)療”領域打造的“救命AI”——騰訊AI醫(yī)療產品的聚合。
AI迅速爆發(fā)的背后究竟靠的是什么?現下眾多巨頭企業(yè)、初創(chuàng)公司等紛紛入局人工智能領域,都在嘗試尋找全新突破口。業(yè)內曾流傳著這樣一句話:得“數據”者,得“人工智能”,而能將“人工智能”玩的轉的,便能稱的上是撬動世界第四次工業(yè)革命的先鋒了。
偏偏是“數據”扼住了AI命運的咽喉?
從發(fā)展意義來看,人工智能(AI)在不斷的進步,并且隨著這種進步勢必會改變一大批產業(yè)的形態(tài)。此外,從另一方面看,人工智能技術的背后有三大支柱:算法、算力和數據,這三者相輔相成、相互制約,但其中數據是核心要義,只要有了大量優(yōu)質精準的數據,再加上算法實現高效的機器運算、算力的推動,AI才能越走越遠。
“沒有好的數據,人工智能將沒有未來”已經成為業(yè)界共識。
值得一提的是,這里有兩個重要的點需要區(qū)分:一個是數據,另一個是好的數據:“高質、精準、安全”。
云測數據賈宇航表示:“首先數據是人工智能底層邏輯中不可或缺的支撐要素,因為人工智能的本質就像人類要不斷的通過訓練來獲取技能一樣,AI的根基就是訓練,需要經過大量數據進行訓練,神經網絡才能總結出規(guī)律,進而熟能生巧的應用到新樣本上”。
也就是說,數據是最基本的燃料,沒有燃料,AI這艘火箭是不可能直沖云霄,而商業(yè)落地更是遙不可及的夢。從自動駕駛到AI聊天、服務機器人,從人臉識別到各類AI邊緣落地化產品,數據是真正的“幕后英雄”,無“數據”不“AI”。
其次,要想經算法訓練后獲得的模型更加智能,僅“數據”遠遠不夠的,這背后更多的是對數據的“高質、精準、安全”的要求。
例如在訓練的過程中,高質精準的數據扮演著“教科書”級別的重要角色。如果僅需要識別勺子,但在訓練數據中勺子總和碗、筷子一起出現,那么AI系統(tǒng)可能會誤入歧途,進入一種“瞎猜”的狀態(tài)而產生混亂和誤差,結果很可能會將碗或筷子識別成勺子。所以對于人工智能來說,雖然大量的訓練數據固然很重要,但更重要的是數據的“高質精準”。
再從另一方面看“高質精準的數據”對算法模型來講究竟有多重要?
現在人工智能處在產業(yè)落地前夕,可以說AI產品的精準數據訓練直接影響落地產品的良品率;舉個不恰當的例子,如果自動駕駛系統(tǒng)的訓練數據的缺乏或不精準,則很可能在行駛過程中由于未正確識別物體數據直接導致人身傷亡,這些后果都是不堪設想的。
此外,數據標注的價值不僅體現在物體識別上。當下人工智能整個行業(yè)都在往多模態(tài)的方向發(fā)展,比如以智能駕駛為例,基于傳統(tǒng)的車外環(huán)境感知系統(tǒng)一般都采用攝像頭做設計,以至于存在著測距效果差等缺陷,現在引入激光雷達后,在數據的提升上對應是既有圖像又有3D點云的三維數據的耦合。
隨著人工智能逐漸從學術走向產品化、落地化、市場化,企業(yè)對于場景數據的要求也越來越多維,所以引入更多維度的數據去完善AI產品落地前的模型,也是當下行業(yè)發(fā)展的趨勢。
直擊行業(yè)痛點,這樣的“數據一把手”才更性感
傳統(tǒng)的數據清洗標注工作呈現出一種“數據粗放型處理”的狀況,從移動互聯中大量獲取公開、通用的數據,通過雇傭廉價的勞動力完成數據的清晰標注工作,“道路、天空、大樹”大致標注粗糙勾選后,便全部投入應用到神經網絡中。
但隨著人工智能發(fā)展至商業(yè)落地前夕,算法模型對高質量、高精度數據的需求極速提升,以往的通用數據集越來越不能滿足AI企業(yè)的數據需要,人工智能落地越來越專注于小場景和專業(yè)領域。人工智能不再是漂浮在“空中的樓閣”,基于AI實際應用場景的數據服務,已成為人工智能落地的核心地基。
賈宇航表示:“在這個行業(yè)中有一個‘garbage in garbage out’的理論,即如果標注完的數據精度達不到標準,那么訓練出來的算法也是不精準的?!比缃褚晃洞址诺奶幚砟J郊炔荒軡M足逐漸商用的AI企業(yè)的數據需求,甚至還將影響技術本身的發(fā)展。
面對這樣的產業(yè)趨勢,云測數據作為行業(yè)的典型代表,直擊行業(yè)痛點:將“精準高質”“獨立安全”作為業(yè)務發(fā)展的核心,并隨著AI企業(yè)數據需求不斷的演進。
有剛性需求便會有實時供給,有痛點問題便就有解決方案。云測數據基于其自建的數據標注基地和場景實驗室,根據AI企業(yè)數據需求,進行特定動作、表情和表情的捕捉,將精準的數據投入到流程化規(guī)范生產的數據標注環(huán)節(jié)中,最終輸出精準高質的數據。解決特定場景化下的數據缺失、質量良莠不齊、安全性等行業(yè)問題,以幫助AI企業(yè)打造以高精度數據為核心的行業(yè)壁壘。
場景實驗室是云測數據布局高度定制化、多模態(tài)的AI數據服務的重要組成部分,以AI企業(yè)的具體算法模型的特定需求來定制化搭建采集場景,致力于覆蓋盡可能多的實際場景及邊際場景,從數據產生的源頭把控數據質量。
自建標注基地是云測數據保證數據精準高質的又一強力保證。基地內的全職標注人員有利于協同化管理和快速響應企業(yè)數據需求。同時云測數據還基于不同場景對標注人員進行領域內的細分,接受固定領域的知識培訓。得到高效的行業(yè)知識輸入,在理解企業(yè)客戶的需求上就能做到準確無誤的輸出。
所以,AI的背后是數據,行業(yè)的幕后是云測數據——這樣的“行業(yè)數據一把手”才著實性感。
數據安全成核心,行業(yè)規(guī)范亟需建立
目前云測數據基于自建的數據場景實驗室和數據標注基地,服務領域已涉及智能駕駛、智能家居、智慧城市、智慧金融、新零售等領域,實時為領域內各個AI企業(yè)提供定制化的數據采集、數據標注服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理。
更重要的一條前置底線是,云測數據除了提供優(yōu)質數據,更是把數據隱私安全做到了極致。從防火墻的設置、到內部信息系統(tǒng)的管護,乃至標準化的流程作業(yè)體系等,將一整套的安全防護和信息保護的機制,應用在數據標注生產的各環(huán)節(jié)。
賈宇航告訴獵云網:“對于一個企業(yè)來講,擁有了數據便就擁有了核心競爭力,數據安全一直都是我們極其重視的一點。首先我們要做到的,是數據絕不復用,第二就是保證數據隱私性。與所有數據采集的用戶都簽訂數據授權協議,確保AI企業(yè)用于訓練的數據合法合規(guī)?!?/strong>
Testin云測CMO張鵬飛也強調“從整體看來,AI數據行業(yè)關于安全、隱私等方面并沒有統(tǒng)一的標準和強調重視。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務行業(yè)、樹立數據質量標桿,只有以這種負責的態(tài)度來服務客戶,我們的行業(yè)才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。
人工智能的發(fā)展離不開數據的支撐,更離不開AI數據做“燃料”。如果非要用一句話來定義這個時代的“人工智能”和“數據”的關系,可以說是:數據是人工智能的核心要義,而“高質精準、獨立安全”的數據,則是撬動世界第四次工業(yè)革命(人工智能浪潮)的關鍵所在。
作者:郭亞鑫
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )