IDC預測,2020年全球?qū)碛?5ZB數(shù)據(jù)量。
隨著人工智能的發(fā)展,人工智能多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)量愈發(fā)龐大,數(shù)據(jù)種類逐步復雜化,多模數(shù)據(jù)組合標注等需求進一步顯現(xiàn)出來。
數(shù)據(jù)的獲取方式
從企業(yè)AI數(shù)據(jù)需求角度出發(fā),獲取數(shù)據(jù)的形式主要為自行生產(chǎn)和委托數(shù)據(jù)服務企業(yè)兩種形式。在數(shù)據(jù)服務行業(yè)中,一般也通過自制、眾包、外包三種模式完成數(shù)據(jù)處理業(yè)務,這三種模式優(yōu)劣勢也非常明顯。
自制:
優(yōu)勢:標準唯一數(shù)據(jù)質(zhì)量高;人員專業(yè)程度高。
劣勢:實施場景單一,人員培訓成本高,只能為特定的客戶服務。
眾包:
優(yōu)勢:用戶眾多,遍布全球,線上操作,成本低效率高。
劣勢:僅適用于簡單易實施項目,數(shù)據(jù)零散,需專業(yè)人員統(tǒng)一收集再處理。
外包:
優(yōu)勢:承包給一個或多個外包商,外包商對數(shù)據(jù)結(jié)果負責。
劣勢:對于復雜項目不能較好的理解客戶需求,數(shù)據(jù)質(zhì)量參差不齊。
高質(zhì)量的數(shù)據(jù)是算法提升的關鍵
數(shù)據(jù)的質(zhì)量決定了AI算法的性能。中國作為全球人口最多的國家,擁有著全球最多的數(shù)據(jù),然而對于AI算法來說數(shù)據(jù)量大并非等同于數(shù)據(jù)質(zhì)量高,只有客觀、精準、自然標注數(shù)據(jù),才是算法提升的關鍵。
▲李開復博士演講中提到“AI算法固然重要,數(shù)據(jù)更重要”
目前大多數(shù)數(shù)據(jù)服務企業(yè),只支持單一模式完成數(shù)據(jù)處理,無法同時滿足客戶對工期、成本、質(zhì)量及數(shù)據(jù)多樣化的要求。近年,也有不少人工智能企業(yè)嘗試自行制作數(shù)據(jù),卻因資源缺乏、對數(shù)據(jù)處理團隊管理僵化、數(shù)據(jù)處理經(jīng)驗不足等問題,導致數(shù)據(jù)質(zhì)量參差不齊。
數(shù)據(jù)堂通過三大產(chǎn)品矩陣互連互通——基礎數(shù)據(jù)集、數(shù)據(jù)定制服務、私有化數(shù)據(jù)標注平臺,真正為客戶實現(xiàn)一站式數(shù)據(jù)解決方案。
數(shù)據(jù)質(zhì)檢解決方案
數(shù)據(jù)堂憑借多年數(shù)據(jù)業(yè)務經(jīng)驗積累,總結(jié)出一套完善的數(shù)據(jù)質(zhì)檢流程??商峁└叨染?、標準化QC流程的質(zhì)檢服務,質(zhì)檢數(shù)據(jù)整體準確率達96-99%。
▲質(zhì)檢人員辦公場景
數(shù)據(jù)質(zhì)檢服務內(nèi)容
(一)數(shù)據(jù)質(zhì)檢員:
對外輸出專業(yè)質(zhì)檢員資源,可承擔具體的數(shù)據(jù)質(zhì)檢任務,同時也支持幫助客戶培訓、篩選、優(yōu)化現(xiàn)有的質(zhì)檢團隊。
(二)項目質(zhì)量管理:
制定數(shù)據(jù)質(zhì)量標準:由專門負責數(shù)據(jù)質(zhì)量管理人員整理,減少客戶的各項直接成本(溝通、培訓等)或其他隱性成本;
輸出數(shù)據(jù)質(zhì)檢資源:由質(zhì)量管理人員安排質(zhì)檢員進行項目質(zhì)檢,減少客戶非核心業(yè)務的工作量,達到降低成本和提高效率的目的;
數(shù)據(jù)質(zhì)量持續(xù)改善方案:避免同類錯誤重復出現(xiàn),持續(xù)改善,減少算法應用數(shù)據(jù)的偏差;
項目質(zhì)量管理報告:為客戶展示數(shù)據(jù)質(zhì)量的整體情況,以便定期跟蹤和復盤。
(三)數(shù)據(jù)質(zhì)量管理體系建設:
搭建較為全面完善的數(shù)據(jù)質(zhì)量管理體系,為項目開展等提供全方位支持。
數(shù)據(jù)質(zhì)檢服務能力
語音數(shù)據(jù):
中文普通話采集及標注;方言采集及標注(昆明/武漢/長沙/四川/粵語等);外語采集及標注(口音英語類:中國/西班牙/法國/德國/葡萄牙/意大利/俄羅斯/巴西/韓國/日本/加拿大/新加坡/馬來西亞等國人說英語;母語類:意大利語/德語/葡萄牙語/西班牙語/日語/韓語等);特定指令及場景語音采集(喚醒詞/數(shù)字文本語音/聲紋識別語音/演講語音/自然對話等)。
圖像數(shù)據(jù):
圖像采集:人像采集(活體對抗采集/3D手勢/3D人臉/人臉多姿態(tài)/親屬人臉采集/指紋采集/表情視頻/人臉膚質(zhì)采集等);場景采集(室內(nèi)外監(jiān)控/駕駛行為采集/家居環(huán)境采集/道路景象/指定物采集/360度景象采集等)。
圖像標注:人像標注(人臉關鍵點/行為/人像服飾分割/人像摳圖/人臉毛孔標注/皺紋標注等);OCR標注(問答類/游戲類/多國語言);場景標注(3D點云標注/雷達數(shù)據(jù)標注/指定物標注/深度圖像標注/交通道路線/交通標志標注等)。
文本數(shù)據(jù):
韻律標注/分詞標注/詞性標注/實體標注/多次交互標注/多音字標注/數(shù)字讀法標注/字符讀法標注/TTS-中英文拼音標注等。
質(zhì)檢案例
案例一:交互類語音標注數(shù)據(jù)質(zhì)檢
與某大型公司合作質(zhì)檢:2019年8月-12月,共完成18個項目、26萬條數(shù)據(jù)、27批次質(zhì)檢任務,返工量約為0.02%。全部通過客戶驗收,直接被用于算法訓練,高效完成客戶要求,為客戶節(jié)省時間成本。
參與人員:
質(zhì)量管理人員——1人,負責對接客戶需求、任務安排和驗收;
質(zhì)檢專員——7人,負責數(shù)據(jù)質(zhì)檢和進度報告。
案例二:街景圖片標注數(shù)據(jù)質(zhì)檢
與某互聯(lián)網(wǎng)公司合作質(zhì)檢:2019年7月-12月,共完成4356個數(shù)據(jù)質(zhì)檢任務,整體不良率從13.81%改善為4.50%??焖俑纳瓶蛻魯?shù)據(jù)質(zhì)量問題,為客戶搭建數(shù)據(jù)質(zhì)量管理體系,定期提供質(zhì)量分析報告,深受客戶好評。
質(zhì)檢方式:駐場+遠程支持
▲質(zhì)檢人員辦公場景
質(zhì)檢服務流程
從任務發(fā)布到質(zhì)檢結(jié)果交付這一過程,數(shù)據(jù)堂有完整的對接、運作體系。此過程流程化,使得可快速對接不同類型的項目,滿足客戶多樣化需求。
數(shù)據(jù)質(zhì)量管理團隊,擁有7年及以上各類數(shù)據(jù)項目的實際實施經(jīng)與質(zhì)量管理工作經(jīng)驗,支持入門培訓即上崗。數(shù)據(jù)堂認為,數(shù)據(jù)質(zhì)量管理是算法性能的守門員,專業(yè)的AI數(shù)據(jù)質(zhì)檢解決方案,也是算法最后一道關,必須嚴格以待。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領域達成戰(zhàn)略合作伙伴關系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。