海天瑞聲李科分享技術(shù)賦能人工智能標注,高質(zhì)量數(shù)據(jù)助推人工智能發(fā)展

3月9日,鈦媒體華楠直播間「訓練AI的人」專場直播中,海天瑞聲副總經(jīng)理、業(yè)務負責人李科受邀做客直播間,分享人工智能在標注和算法中有哪些技術(shù)革新、AI訓練師如何教人工智能更懂人類,如何賦能人工智能產(chǎn)業(yè)。

華楠:

AI訓練師是一個怎樣的職業(yè),請科總為我們簡單介紹。

李科:

2021年底,人力資源社會保障部、工業(yè)和信息化部共同制定的人工智能訓練師等6個國家職業(yè)技能標準出臺。在人工智能訓練師國家職業(yè)技能標準》中,對于人工智能訓練師的職業(yè)定義,是使用智能訓練軟件,在人工智能產(chǎn)品實際使用過程中進行數(shù)據(jù)庫管理、算法參數(shù)設置、人機交互設計、性能測試跟蹤及其他輔導作業(yè)的人員。人工智能訓練師包含兩個工種五大等級,分別為數(shù)據(jù)標注員和人工智能算法測試員,又分初級工、中級工、高級工、技師、高級技師這由低到高的五大等級。

華楠:

對于您提到的數(shù)據(jù)標注員和算法測試員,請您進一步介紹兩個職業(yè)分別做什么工作,又有怎樣的區(qū)別?

李科:

我們業(yè)內(nèi)經(jīng)常有一句話:有多少人工就有多少智能。

數(shù)據(jù)標注員從事的主要是人工部分的工作。根據(jù)相關(guān)的要求和規(guī)范,基于標注員自身的知識進行數(shù)據(jù)標注。舉例來說,在人臉識別、自動駕駛場景中,很多數(shù)據(jù)是從真實世界中獲取的原始數(shù)據(jù),這些數(shù)據(jù)無法直接用作算法訓練,需要通過人的加工,才可以形成最終被算法識別的結(jié)構(gòu)化數(shù)據(jù)集。

例如在算法識別人臉數(shù)據(jù)的場景中,需要對人臉進行關(guān)鍵點標注。最簡單的關(guān)鍵點包括兩個瞳孔、一個鼻尖和兩個嘴角。而隨著算法進步,需要標注的關(guān)鍵點也隨之增加。在以往的實際業(yè)務中,我們最多能夠在一張臉上標注200多個關(guān)鍵點。

這聽起來簡單,但在實際操作過程中會遇到很多難點,如遇到暗光環(huán)境、側(cè)臉環(huán)境、非正面環(huán)境等,標注員只能看見單側(cè)的瞳孔,需要對應想象另一側(cè)瞳孔的位置才能進行標注。

另外一個職位是算法測試員,主要對人工智能的算法性能和效果進行測試,通過定義一套測試的規(guī)范流程,最終得出測試結(jié)果。當算法迭代或系統(tǒng)升級,能夠客觀評判算法的升級或者迭代的方法是否取得了進步。

華楠:

目前什么樣的人在從事數(shù)據(jù)標注,需要具備哪些專業(yè)知識?

李科:

從我們的人員架構(gòu)可以看出,主要分為三類人員。

第一類是研發(fā)和算法人員。在訓練算法的過程中,可能會需要百萬、千萬級的數(shù)據(jù),我們需要開發(fā)專業(yè)的系統(tǒng)對數(shù)據(jù)快速準確的進行標注,同時通過算法輔助實現(xiàn)標注效率的提升。

第二類是項目管理人員。例如在標注1000萬張人臉圖片的項目中,項目管理人員需要在前期規(guī)劃、項目實施、項目監(jiān)控、項目交付等過程中把控項目進度,最終滿足客戶的交付需求。

第三類是廣義概念的數(shù)據(jù)標注員。這其中包含了數(shù)據(jù)標注員、標注組長、質(zhì)檢組長,以及客戶方可能會配備的驗收員等,這些都是廣義上被定義為數(shù)據(jù)標注的人員。

從我們的業(yè)務角度,可以概括的分為智能語音、計算機視覺、自然語言理解三大方向,對數(shù)據(jù)標注員也有著不同要求。例如在自動駕駛領域,主要分為2D、3D兩個方面,在車載攝像頭拍攝的街景照片中,標注員需要對車輛、行人、標識線、標識物、紅綠燈等內(nèi)容進行標注,我們會有針對性的對標注人員進行交通法規(guī)、汽車駕駛等相關(guān)培訓。

但是在金融、醫(yī)療、法律等場景和更加細分和垂直的領域中,則要求標注人員擁有專業(yè)的知識儲備。例如在CT圖像中標注肺癌腫瘤生長點的位置具體,這就需要接受長時間培訓的專業(yè)人員才能夠滿足標注的需求。

所以標注人員需要怎樣的專業(yè)知識,也要根據(jù)需求具體問題具體分析。大部分的標注需求可以通過短期的培訓達到標準,但針對特殊領域則需要長時間接受過專業(yè)的系統(tǒng)性培訓才能夠符合要求。

華楠:

最近大模型相關(guān)話題火熱,模型背后其實就是數(shù)據(jù),作為人工智能的三要素,利用數(shù)據(jù)訓練形成算法很重要,如何通過數(shù)據(jù)標注和訓練在場景中應用AI?要經(jīng)歷哪些階段?

李科:

人工智能的發(fā)展主要得益于三個方面的發(fā)展,包括算力、算法和數(shù)據(jù)。正是因為海量的數(shù)據(jù)更好的滿足了算法需求,所以才有了這一輪大規(guī)模的爆發(fā)和應用。我們有一句話叫做Garbage In, Garbage Out,如果輸入的數(shù)據(jù)質(zhì)量不高,輸出的結(jié)果也會不盡人意。這句話從一定程度上表明數(shù)據(jù)質(zhì)量的重要性,只有高質(zhì)量、大規(guī)模、結(jié)構(gòu)化的數(shù)據(jù)才能夠提升人工智能系統(tǒng)的效果。

具體到人工智能系統(tǒng)層面來講,通常分為兩個階段。第一個階段是訓練階段:在這個場景下需要大量的訓練數(shù)據(jù),通過數(shù)據(jù)和算法得到模型。第二個階段是推理階段:在這個階段會應用在訓練階段得到的模型,對新的數(shù)據(jù)進行推理。

例如在語音識別場景,首先我們在訓練階段設計出一個語音識別算法,然后通過使用大量的語音數(shù)據(jù)得到一個語音模型。接著進入到推理階段,使用一句話輸入到語音模型中,從而得到語音識別的結(jié)果,通常是一個文本。這就是整個AI應用的兩個階段。

具體到數(shù)據(jù)層面,通常我們會將數(shù)據(jù)的生產(chǎn)過程分為四大階段:包括數(shù)據(jù)集設計、數(shù)據(jù)采集、數(shù)據(jù)清洗標注(也稱為數(shù)據(jù)處理),以及數(shù)據(jù)質(zhì)檢和交付。

在數(shù)據(jù)設計和采集階段,還是用人臉識別舉例,在設計階段中需要根據(jù)應用的場景,設計采集人數(shù)、性別,采集光線、角度、場景,是否需要多人組合采集等眾多內(nèi)容,才能進行采集并得到原始數(shù)據(jù)。在數(shù)據(jù)標注階段,對標注過程進行規(guī)范處理,形成結(jié)構(gòu)化數(shù)據(jù)。在最后的質(zhì)檢和交付階段,需要進行嚴格的質(zhì)量把控,將海量優(yōu)質(zhì)且安全合規(guī)的數(shù)據(jù)交付給合作方。

華楠:

隨著AI越來越多的走進大家的生活中,AI技術(shù)也在不斷進化,AI 數(shù)據(jù)標注以及算法有著哪些技術(shù)革新?

李科:

從數(shù)據(jù)的角度來講,現(xiàn)在的技術(shù)演進是非常清晰的,主要是系統(tǒng)化和智能化。

在系統(tǒng)化方面,我們自主研發(fā)了大規(guī)模的標注系統(tǒng)。能夠?qū)崿F(xiàn)項目管理、流程管理、人員管理、數(shù)據(jù)管理等功能,尤其是數(shù)據(jù)安全管理。

在智能化方面,我們也擁有自己的算法團隊,將算法運用到數(shù)據(jù)的生產(chǎn)過程當中,提升標注的效率和準確度。例如質(zhì)檢過程中,通過算法快速甄別出不合格的數(shù)據(jù),更好的進行反饋和修改。

華楠:

訓練AI需要大量的數(shù)據(jù)支撐,您認為一個合格的AI至少需要使用多少數(shù)據(jù)進行學習才能達到真正的智能化?

李科:

針對不同的場景,會有不同的要求。

通過公開資料我們可以了解到,最近非常火的ChatGPT大模型,它在訓練過程中使用的數(shù)據(jù)是5000億個token(token為語言中最小的語義單位,在英文中等于一個單詞,在中文中等于一個詞語)。但在自動駕駛場景,即便只是一個車道線識別,我們通常給合作方提供的數(shù)據(jù)都是在幾十萬幀到上百萬幀的級別。

而語音識別場景則不同,谷歌此前公布的一個語音識別模型,可以識別100多種語言,使用了約1200萬小時的數(shù)據(jù)進行訓練。但有時也可以使用數(shù)千或者數(shù)萬小時進行單一語種的語音識別模型的訓練??偨Y(jié)來說,還是要看數(shù)據(jù)所應用的具體場景具體分析。

華楠:

對于最近大熱的ChatGPT我們會感慨到它的邏輯清晰,連續(xù)回答,像這樣的模型訓練量大概需要多少數(shù)據(jù),才能保證他有這樣的強大的能力?

李科:

ChatGPT在訓練數(shù)據(jù)層面有兩大關(guān)鍵點。

第一個是基于大規(guī)模的數(shù)據(jù)。像我剛才提到的5000億個token這種級別的數(shù)據(jù),進行大模型的初始訓練。

第二個是運用了RLHF基于人類反饋的強化學習。在強化學習的過程中大概使用了1-3萬數(shù)量級的人類反饋,正是通過人類反饋來進行強化學習,才可以使得ChatGPT最終呈現(xiàn)出非常好的效果。

華楠:

國內(nèi)也有很多從事相關(guān)研發(fā)的企業(yè),其數(shù)據(jù)能力如何?與ChatGPT還有多少差距?

李科:

首先ChatGPT的很多數(shù)據(jù)是從公開來源獲取的,其中較大的數(shù)據(jù)集包括一個通用數(shù)據(jù)集約4000多億個token,還有兩個書籍數(shù)據(jù)集,以及Wikipedia數(shù)據(jù)集。

另外一個重要的數(shù)據(jù),就是RLHF基于人類反饋的強化學習數(shù)據(jù),這個數(shù)據(jù)集由OpenAI自行研發(fā),通過很多規(guī)則處理數(shù)據(jù)。這個數(shù)據(jù)集并未公開,是ChatGPT最終達到這么好的效果的關(guān)鍵因素。

從目前國內(nèi)的情況來看,獲得公開數(shù)據(jù)集是相對容易的,但其自研的數(shù)據(jù)需要我們?nèi)斯ぶ悄軓臉I(yè)者共同探索,如何提升技術(shù)能力達到ChatGPT的最終效果。

華楠:

最后一個問題,目前傳統(tǒng)的數(shù)據(jù)來源主要還是依靠大量的人工進行標注,在未來很長一段時間內(nèi),這種模式是否成為訓練數(shù)據(jù)的主要來源?

李科:

首先,認為數(shù)據(jù)標注是一個純手動標注的工作,是有一定程度誤解的。我們是非常注重研發(fā)能力的企業(yè),包括我們的平臺、算法、項目管理等各方面,只有通過不斷的技術(shù)創(chuàng)新才能夠更好的提升整體的質(zhì)量與效率。

其次,我個人認為在短期內(nèi),人工標注不太容易被取代。數(shù)據(jù)標注可以理解為將人類的知識教給計算機,計算機才能夠進行相關(guān)識別。我們自己也常說,其實我們就像是在為人工智能制作教材,幫助人工智能學習判斷和推理。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )