2019年,人們再次談起人工智能時,最常聊到的便是其如何應用。因為大家心里都清楚,人工智能要想服務于企業(yè)和社會,必須先從實驗室中走出來,放下它那神秘高貴的外表,腳踏實地。
然而,就像半導體技術一樣,在誕生之初,它沒有得到產業(yè)的認可,主要是因為高昂的制作費用,一顆電晶體成本高達10美元,被戲稱作實驗室里的玩具。直到硅提純、精密加工等技術的發(fā)展,才有了由杰克·基爾比所研發(fā)的現代集成電路,目前10美元可以買數千萬甚至上億顆電晶體。
人工智能的成本又由何組成呢?它不像芯片一樣擁有明碼標價的BOM,普遍認為其主要來自于研發(fā)人員及工程師的薪資和服務器維護,事實上這個想法不夠全面。絕大多數企業(yè)所采取的人工智能技術名為機器學習,需要有脫敏的訓練數據支撐才得以運行。哪怕是實現Hopfield,也需要遠超想象的數據量,更何況是現如今那些擁有強魯棒性的模型了。
數據采集標注看起來很簡單,無非就是拍個照片標個點,但是真正要操作起來卻根本不是那么一回事。首先要想在足夠短的周期內采集到足夠的數據量,必須要有足夠的人手配置。假若要10萬張人臉表情照片并且要有300個點需要標注,每人每天貢獻20張合格的素材算是一個較為平均的水平,企業(yè)數據采集標注團隊擁有50個人,那么完成這一單生意就需要100天的時長,也就是3個多月。
拿到數據后再去復審、訓練,到最后功能上線,少說也要將近半年的時間。這顯然對不上軟件疊代更新的理念。再加上這些人員的培訓組織運營成本等等,一筆合格的數據采集業(yè)務的交付可能高達幾萬甚至數十萬元。這也是為什么會有一種觀點表示,人工智能不僅不會替代勞動力,反而會增加就業(yè)。
在海外,率先察覺到由人工智能所催生的新一片藍海——數據采集和數據標注,最早由Appen為代表,后來隨著MightyAI、Scale這樣的公司出現,逐漸走向穩(wěn)定。這個爆發(fā)點大約是在2016年,諸如后者這樣的公司,均是在2015、2016這兩年間出現的。而就在最近,Scale AI創(chuàng)始人,華裔22歲青年Alexandr Wang宣布獲得1億美金C輪融資,公司估值超10億美金,成為硅谷新晉獨角獸。
反觀國內,人工智能的浪潮其實要比國外更為洶涌,然而專業(yè)從事數據采集標注的公司發(fā)展卻比較滯后。即便是有幾家相關的公司,卻多半為自營狀態(tài),和海外服務眾多AI企業(yè)的平臺模式截然相反。當然,誰都是吃客單生意的,不同并不代表做錯了。
國內有一家公司名為龍貓數據,是國內首家以眾包的形式運營采集標注業(yè)務的。眾包形式的好處就在于人員調用足夠充沛,相較于傳統(tǒng)的員工制,眾包形式更為靈活。同時,淡季的時候也不用支付員工薪資,減輕了運營成本。
但是眾包形式的缺點在于用戶管理,數據采集成員和龍貓之間并沒有勞務合同,只有平臺運營規(guī)范作為制約。龍貓數據因此采取了精細化管理的方式,對用戶進行能力畫像,將不同用戶分配到多個不同環(huán)節(jié),包括數據采集和標注、數據審查等等。
為了提高數據產出的質量與效率,配合龍貓數據的眾包模式和精細化用戶運營,龍貓數據采用了預標注工具和人機交叉數據驗證這兩種措施。前者是指,龍貓眾包平臺的AI工具會先對需要標注的數據進行預標注,然后再由標注人員對預標注結果進行微調;后者則指的是龍貓數據會對標注好的數據進行機器和人的雙重交叉審核,加上合理數量的抽檢,最終滿足數據交付的要求。
借用眾包的模式,從任務發(fā)布到數據交付,這樣一個流程下來,即便是幾十萬數據規(guī)模的大單,短短一兩周也就能搞定。
龍貓數據也有頭疼的地方,他們有一個客戶是全球非常知名的通信設備商。根據GDPR的規(guī)定,凡是消費到GDPR所保護地區(qū)的產品,必須要遵守相關規(guī)定。這也就使得龍貓在數據采集時也要合乎GDPR的標準。為此,龍貓招納了深入了解GDPR的相關人士。
人工智能飛速發(fā)展為數據行業(yè)帶來了大量不同的基礎數據需求,龍貓數據的客單總體分為兩類:采集標注過的數據和沒有采集標注過的數據。已有的數據再次采集標注是一種資源浪費。于是龍貓數據推出了一項數據商城服務,即用戶可直接在商城中購買已經存在的數據集,以便快速拿到數據。當然了,數據商城的數據在復售前都會與客戶簽訂一定的協(xié)議,已保證龍貓數據依然合法享有這批數據的銷售權。
類似于知識產權,數據在銷售以后還是存在的,也就是說某一企業(yè)在購買數據后,它可以將其復制給其他公司。相當于多個企業(yè)只要買一份數據就能完成所有的訓練了,在經濟學的角度來講,哪怕是購買方銷售了一次數據,這對于龍貓數據來說都是一種損失。區(qū)塊鏈或許是一種解決辦法,不過當下,龍貓把注意力放在了另一件事上。
龍貓數據將自己目前的發(fā)展分為了三個層次,第一層次為龍貓1.0,即數據標注工具集合。1.0時期,龍貓開發(fā)了基于視覺、音頻、文本這三大領域的標注工具,用于對數據進行手動處理,以服務于機器學習的訓練。第二層為龍貓2.0,在這段時間里,龍貓開始從整體流程上對數據采集標注進行優(yōu)化,實現了從接到需求到完成需求的全過程自動化管理,其中非常重要的一部分是對數據采集標注任務的細化拆分,將一個復雜的任務細化拆分成顆粒度極小的需求,極大提升了需求滿足的時間。
2019年,龍貓數據進入了3.0時期,開發(fā)AI預標注工具。目前這種預標注工具主要應用在視覺層面,而音頻和文本這兩項業(yè)務應用較少。龍貓數據3.0所代表的是全面采用預標注技術和工具,能夠讓所有數據采集標注人員都能使用,從而提高效率,對于龍貓數據來說,這種工具的應用能夠極大縮短交付周期。
龍貓數據3.0會持續(xù)一段時間,隨后便進入4.0時期。在那個時期里,龍貓會全面采用自動化標注工具,用戶只需要對采集數據和預標注結果進行微調,標注及審核、質檢工作全面由人工智能所代替。只是這個道路還較為遙遠,現在不好估量。
然而不難想象的是,未來的數據采集公司必須要通過工具和預標注來形成自己的技術壁壘。采集過程主要依靠人來完成,其規(guī)模和效率主要來自于市場運營和任務獎勵,這也就意味著從采集到產出之間,勞動時間越短,成本也就越少,能夠完成的客單數量也就越多。
從客戶數量來看,龍貓現有約200家客戶左右,基于眾包形式的優(yōu)勢,這種數量級是合理的。畢竟從外部看,在質量合格的前提下,自然會選擇產品周期最短,價格最便宜的公司。這種模式也造就了龍貓數據客戶復購量大,核心客戶客單價高的局面。
從內部看,龍貓數據的模式沒有大幅度變更,反倒是流程發(fā)生了變化,最根本的原因還是在于工具的進化。同時,龍貓自3.0時期開始也不再是一家傳統(tǒng)的數據采集標注公司,而是一家人工智能公司。
或許他們想要的是從數據基礎服務到人工智能的發(fā)展轉變,由單純的AI數據服務延伸到細分領域整體AI落地。借助AI的力量,將人工智能里最需要人工的部分解放出來,成就人工智能領域最智能的人工。這是他們最擅長的,畢竟他們是人工智能領域的筑基者,他們也最明白如何用好AI這股強大的原生力量。
“只有退潮了才知道誰沒穿褲衩。”這句話被人們說了無數次,最早能追溯到豆你玩、姜你軍時期。無論是VR、O2O、人工智能都是一樣的道理。
話又說回來了,數據采集標注作為人工智能的上游,它也需要人工智能開發(fā)能力,最終形成了一種閉環(huán)。未來會怎樣,沒人說得清楚,但是人工智能的未來絕對不是吹噓自己的算法能有99%的補償、能解決幾百億數據量求梯度,而是要從每一比特的數據開始積累,直至幾十乃至幾百ZB。
- 競爭激烈!頭部車企引領價格戰(zhàn),新勢力車企如何應對?
- 新能源汽車號牌設計優(yōu)化引熱議,iPhone 17渲染圖曝光,科技巨頭布局未來
- 聚焦兩會:雷軍、李東生、周鴻祎等科技大佬建議,探討AI領域的發(fā)展與創(chuàng)新
- 比亞迪閃電配售:內部命名“扶搖”,李黔稱項目“滴水不漏”,背后有何秘密?
- 中國移動互聯網流量報告揭秘:長視頻行業(yè)逆襲,用戶粘性增長引關注
- 警惕“大模型幻覺”,中國AI要大膽前行
- 微軟推出臨床醫(yī)生AI助手:打破醫(yī)療行業(yè),開啟智能醫(yī)療新篇章
- NVIDIA聯手博通試產Intel 18A制程芯片,科技界又迎新突破!
- 微芯科技裁員應對需求放緩:轉型求生,2000人面臨失業(yè)浪潮
- 阿里巴巴下一個公益十年:馬云倡導人人三小時,共筑公益未來
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。