AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關

IDC預測,2020年全球?qū)碛?5ZB數(shù)據(jù)量。

隨著人工智能的發(fā)展,人工智能多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)量愈發(fā)龐大,數(shù)據(jù)種類逐步復雜化,多模數(shù)據(jù)組合標注等需求進一步顯現(xiàn)出來。

數(shù)據(jù)的獲取方式

從企業(yè)AI數(shù)據(jù)需求角度出發(fā),獲取數(shù)據(jù)的形式主要為自行生產(chǎn)和委托數(shù)據(jù)服務企業(yè)兩種形式。在數(shù)據(jù)服務行業(yè)中,一般也通過自制、眾包、外包三種模式完成數(shù)據(jù)處理業(yè)務,這三種模式優(yōu)劣勢也非常明顯。

自制:

優(yōu)勢:標準唯一數(shù)據(jù)質(zhì)量高;人員專業(yè)程度高。

劣勢:實施場景單一,人員培訓成本高,只能為特定的客戶服務。

眾包:

優(yōu)勢:用戶眾多,遍布全球,線上操作,成本低效率高。

劣勢:僅適用于簡單易實施項目,數(shù)據(jù)零散,需專業(yè)人員統(tǒng)一收集再處理。

外包:

優(yōu)勢:承包給一個或多個外包商,外包商對數(shù)據(jù)結(jié)果負責。

劣勢:對于復雜項目不能較好的理解客戶需求,數(shù)據(jù)質(zhì)量參差不齊。

高質(zhì)量的數(shù)據(jù)是算法提升的關鍵

數(shù)據(jù)的質(zhì)量決定了AI算法的性能。中國作為全球人口最多的國家,擁有著全球最多的數(shù)據(jù),然而對于AI算法來說數(shù)據(jù)量大并非等同于數(shù)據(jù)質(zhì)量高,只有客觀、精準、自然標注數(shù)據(jù),才是算法提升的關鍵。

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關

▲李開復博士演講中提到“AI算法固然重要,數(shù)據(jù)更重要”

目前大多數(shù)數(shù)據(jù)服務企業(yè),只支持單一模式完成數(shù)據(jù)處理,無法同時滿足客戶對工期、成本、質(zhì)量及數(shù)據(jù)多樣化的要求。近年,也有不少人工智能企業(yè)嘗試自行制作數(shù)據(jù),卻因資源缺乏、對數(shù)據(jù)處理團隊管理僵化、數(shù)據(jù)處理經(jīng)驗不足等問題,導致數(shù)據(jù)質(zhì)量參差不齊。

數(shù)據(jù)堂通過三大產(chǎn)品矩陣互連互通——基礎數(shù)據(jù)集、數(shù)據(jù)定制服務、私有化數(shù)據(jù)標注平臺,真正為客戶實現(xiàn)一站式數(shù)據(jù)解決方案。

數(shù)據(jù)質(zhì)檢解決方案

數(shù)據(jù)堂憑借多年數(shù)據(jù)業(yè)務經(jīng)驗積累,總結(jié)出一套完善的數(shù)據(jù)質(zhì)檢流程??商峁└叨染?、標準化QC流程的質(zhì)檢服務,質(zhì)檢數(shù)據(jù)整體準確率達96-99%。

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關

▲質(zhì)檢人員辦公場景

數(shù)據(jù)質(zhì)檢服務內(nèi)容

(一)數(shù)據(jù)質(zhì)檢員:

對外輸出專業(yè)質(zhì)檢員資源,可承擔具體的數(shù)據(jù)質(zhì)檢任務,同時也支持幫助客戶培訓、篩選、優(yōu)化現(xiàn)有的質(zhì)檢團隊。

(二)項目質(zhì)量管理:

制定數(shù)據(jù)質(zhì)量標準:由專門負責數(shù)據(jù)質(zhì)量管理人員整理,減少客戶的各項直接成本(溝通、培訓等)或其他隱性成本;

輸出數(shù)據(jù)質(zhì)檢資源:由質(zhì)量管理人員安排質(zhì)檢員進行項目質(zhì)檢,減少客戶非核心業(yè)務的工作量,達到降低成本和提高效率的目的;

數(shù)據(jù)質(zhì)量持續(xù)改善方案:避免同類錯誤重復出現(xiàn),持續(xù)改善,減少算法應用數(shù)據(jù)的偏差;

項目質(zhì)量管理報告:為客戶展示數(shù)據(jù)質(zhì)量的整體情況,以便定期跟蹤和復盤。

(三)數(shù)據(jù)質(zhì)量管理體系建設:

搭建較為全面完善的數(shù)據(jù)質(zhì)量管理體系,為項目開展等提供全方位支持。

數(shù)據(jù)質(zhì)檢服務能力

語音數(shù)據(jù):

中文普通話采集及標注;方言采集及標注(昆明/武漢/長沙/四川/粵語等);外語采集及標注(口音英語類:中國/西班牙/法國/德國/葡萄牙/意大利/俄羅斯/巴西/韓國/日本/加拿大/新加坡/馬來西亞等國人說英語;母語類:意大利語/德語/葡萄牙語/西班牙語/日語/韓語等);特定指令及場景語音采集(喚醒詞/數(shù)字文本語音/聲紋識別語音/演講語音/自然對話等)。

圖像數(shù)據(jù):

圖像采集:人像采集(活體對抗采集/3D手勢/3D人臉/人臉多姿態(tài)/親屬人臉采集/指紋采集/表情視頻/人臉膚質(zhì)采集等);場景采集(室內(nèi)外監(jiān)控/駕駛行為采集/家居環(huán)境采集/道路景象/指定物采集/360度景象采集等)。

圖像標注:人像標注(人臉關鍵點/行為/人像服飾分割/人像摳圖/人臉毛孔標注/皺紋標注等);OCR標注(問答類/游戲類/多國語言);場景標注(3D點云標注/雷達數(shù)據(jù)標注/指定物標注/深度圖像標注/交通道路線/交通標志標注等)。

文本數(shù)據(jù):

韻律標注/分詞標注/詞性標注/實體標注/多次交互標注/多音字標注/數(shù)字讀法標注/字符讀法標注/TTS-中英文拼音標注等。

質(zhì)檢案例

案例一:交互類語音標注數(shù)據(jù)質(zhì)檢

與某大型公司合作質(zhì)檢:2019年8月-12月,共完成18個項目、26萬條數(shù)據(jù)、27批次質(zhì)檢任務,返工量約為0.02%。全部通過客戶驗收,直接被用于算法訓練,高效完成客戶要求,為客戶節(jié)省時間成本。

參與人員:

質(zhì)量管理人員——1人,負責對接客戶需求、任務安排和驗收;

質(zhì)檢專員——7人,負責數(shù)據(jù)質(zhì)檢和進度報告。

案例二:街景圖片標注數(shù)據(jù)質(zhì)檢

與某互聯(lián)網(wǎng)公司合作質(zhì)檢:2019年7月-12月,共完成4356個數(shù)據(jù)質(zhì)檢任務,整體不良率從13.81%改善為4.50%??焖俑纳瓶蛻魯?shù)據(jù)質(zhì)量問題,為客戶搭建數(shù)據(jù)質(zhì)量管理體系,定期提供質(zhì)量分析報告,深受客戶好評。

質(zhì)檢方式:駐場+遠程支持

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關

  ▲質(zhì)檢人員辦公場景

質(zhì)檢服務流程

AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關

從任務發(fā)布到質(zhì)檢結(jié)果交付這一過程,數(shù)據(jù)堂有完整的對接、運作體系。此過程流程化,使得可快速對接不同類型的項目,滿足客戶多樣化需求。

數(shù)據(jù)質(zhì)量管理團隊,擁有7年及以上各類數(shù)據(jù)項目的實際實施經(jīng)與質(zhì)量管理工作經(jīng)驗,支持入門培訓即上崗。數(shù)據(jù)堂認為,數(shù)據(jù)質(zhì)量管理是算法性能的守門員,專業(yè)的AI數(shù)據(jù)質(zhì)檢解決方案,也是算法最后一道關,必須嚴格以待。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2020-03-31
AI數(shù)據(jù)質(zhì)檢解決方案:為算法把好最后一道關
IDC預測,2020年全球?qū)碛?5ZB數(shù)據(jù)量。

長按掃碼 閱讀全文