聽說數據標注行業(yè)缺“中立”平臺,京東金融豎起了大旗

數據標注是人工智能進行模型訓練必不可少的一環(huán)。這是將最原始的數據變成算法可用數據的過程:原始數據一般通過數據采集獲得,隨后的數據標注相當于對數據進行加工,然后輸送到人工智能算法和模型里進行調用。

上述概念闡釋的背后實際上潛藏著一個正在茁壯成長的商業(yè)機會,尤其隨著AI行業(yè)的發(fā)展,優(yōu)質數據甚至可能是公司發(fā)展的壁壘。

按照人員規(guī)模,現在的數據標注行業(yè)分為小型工作室(20 人左右)、中型公司以及巨頭企業(yè)。它們之間有各自的短板:專業(yè)的數據標注、采集小團隊沒有標注工具,開始逐漸向擁有更好技術資源的大平臺靠攏。與之形成對比的是,花費巨大資源打造專業(yè)全職標注團隊的數據公司,卻也受困于人力成本不得不把一些業(yè)務外包給小團隊。

諸如巨頭企業(yè),雖然在努力搭建平臺,但一方面更多是以消化內部需求為主,另一方面在人員培訓和質量管控上,更多是流程化操作,缺乏合理的運營模式。

“沒有一個標準。”基于上述的調研結果,在京東金融眾智平臺項目負責人看來,數據標注行業(yè)比較混亂。

在這種行業(yè)狀況下,京東金融要做一個“中立”平臺,成為需求方和最終標注團隊之間的連接者:為小型工作室提供標注工具,同時也對需求方提供數據標注方案。

“京東眾智”就是這樣一個產物,它是專注于人工智能數據標注和采集的科技平臺。上述負責人特意強調了“科技”二字,這意味著該平臺并不是傳統的眾包模式,而是通過自身的科技能力,優(yōu)化標注流程,提升標注效率,保證標注質量。

“大部分算法在擁有足夠多的普通標注數據的情況下很容易將準確率提升到 95%,但從 95% 再去提升到 99% 甚至 99.9% 就需要大量高質量的標注數據??梢哉f,高質量的數據是制約模型和算法突破瓶頸的關鍵指標。”

京東眾智的科技能力恰好表現在提高標注質量、提升標注速度、降低標注成本以及保證數據安全四個方面。

標注質量為先,而它又與標注人員息息相關。針對專業(yè)標注人才培養(yǎng)的流程,他們甚至要跟一些公司建立數據標注師認證標準,對不同人員評估其標注等級。這符合京東眾智“三擎互驅”的理念:讓最專業(yè)的人用最專業(yè)的工具,在嚴謹的工作流程中完成數據的標注,并且由選拔出來的高水平專家進行審核,保證正確率。

準確率與客戶的要求也有很大關系,比如眾智平臺的圖片標注準確率在實測狀態(tài)下能達到 99%,為了確保準確性,他們有 ACC 和抽檢等四層過濾流程。

在保證數據標注質量的前提后就要比拼標注速度了。

當下 AI 解決方案落地速度普遍較慢。“傳統的方式是有 AI 需求,然后需要先獲取樣本數據進行數據標注,標注之后再做模型訓練。”但在數據標注之后如果不滿意,還需要把數據返回重新優(yōu)化,上述負責人表示,這樣的方式導致從方案確認到落地可能需要 1 個月甚至時間更長。

眾智平臺的標注工具很大程度上提升了標注速度。“魯班模板標注工具”可以組件化去配置。如果不同的公司對標注數據有不同需求,他們只需調整幾個組件的配置就可以完成操作。

聽說數據標注行業(yè)缺“中立”平臺,京東金融豎起了大旗

京東眾智 Pre-AI 方案與傳統方案的對比

更重要的是京東眾智提出的“Pre-A.I”方案。此方案在標注過程中會不斷添加智能元素,機器做預標注,標注人員只需在此基礎上做細微的調整即可。

這些技術的應用在很大程度上節(jié)省了標注時間,而在 AI 市場競爭激烈的環(huán)境中,速度對創(chuàng)業(yè)公司而言尤為重要。“原來完整的標注流程如果是 1 個月的話,我們可能 3、4 天就可以交付了。”該負責人如此評估眾智平臺的標注效率。

數據標注速度提升的直接結果是標注成本自然會降低。不過,在行業(yè)一片混亂的數據運營模式下,數據安全是需求方最為關注的問題。

對于政府、銀行等企事業(yè)單位而言,它們擔心數據被轉手,一般要求數據必需在自己的環(huán)境內進行標注。為此,他們提供了數據與流程分離方案。數據與流程分離方案針對客戶自有標注平臺和客戶沒有標注平臺兩種情況。

聽說數據標注行業(yè)缺“中立”平臺,京東金融豎起了大旗

京東眾智 DCS 方案流程

對那些數據標注需求比較大的大公司,眾智平臺可以打通京東金融和客戶兩者的標注平臺,同時為標注流程有嚴格的質量把控。需要注意的是,標注環(huán)境實際上還是在客戶環(huán)境下。對于沒有標注平臺的客戶,京東金融提供了一套名為“眾智星”的標注系統,它可以讓數據不出客戶環(huán)境就能完成數據標注。

據負責人介紹,該平臺已于去年 8 月正式上線。目前平臺上數據標注注冊人員在 3 萬以上,而數據采集的注冊人員更是超過了 10 萬人。

“京東眾智旨在為 AI 行業(yè)提供最優(yōu)質的基礎數據,希望在不久的將來,國內大部分的 AI 公司都可以使用我們提供的高質量標注數據訓練出更優(yōu)質的模型和算法。這些模型和算法不僅要服務國內的用戶,更要把中國的 AI 能力服務于全世界。為全球的人工智能行業(yè)助力是我們的初心。”負責人如是說。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2018-06-14
聽說數據標注行業(yè)缺“中立”平臺,京東金融豎起了大旗
數據標注是人工智能進行模型訓練必不可少的一環(huán)。

長按掃碼 閱讀全文