CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

在科技蓬勃發(fā)展的時(shí)代浪潮中,人工智能領(lǐng)域的每一次突破都離不開(kāi)持續(xù)的科研投入和對(duì)前沿技術(shù)的不懈探索。2023 年,網(wǎng)易伏羲與中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)共同發(fā)起了 “CCF - 網(wǎng)易雷火聯(lián)合基金”,致力于發(fā)揮和利用多方資源優(yōu)勢(shì),加強(qiáng)與海內(nèi)外青年學(xué)者的科研合作,促進(jìn)中國(guó)人工智能等領(lǐng)域尖端技術(shù)產(chǎn)業(yè)的進(jìn)步,并加快校企合作、技術(shù)成果轉(zhuǎn)化落地。

自成立以來(lái),CCF-網(wǎng)易雷火聯(lián)合基金始終致力于推動(dòng)科研成果的轉(zhuǎn)化與應(yīng)用,受到了學(xué)者們的廣泛關(guān)注與支持。在 2024 中國(guó)計(jì)算機(jī)大會(huì)(CNCC2024)上,CCF - 網(wǎng)易雷火聯(lián)合基金首批優(yōu)秀成果重磅發(fā)布。浙江大學(xué)軟件學(xué)院百人計(jì)劃研究員王皓波老師作為基金優(yōu)秀代表,現(xiàn)場(chǎng)分享了其在基金資助下的課題成果《基于大小模型協(xié)同的低資源標(biāo)注技術(shù)》,該技術(shù)通過(guò)整合大模型與小模型的優(yōu)勢(shì),為解決數(shù)據(jù)標(biāo)注中的低資源困境提供了全新思路,有望在提升標(biāo)注效率和質(zhì)量方面帶來(lái)顯著突破,助力人工智能產(chǎn)業(yè)實(shí)現(xiàn)更高效的數(shù)據(jù)驅(qū)動(dòng)發(fā)展。

CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

以下為王皓波老師的演講實(shí)錄:

大家好!非常榮幸能夠在這里,作為CCF - 網(wǎng)易雷火基金資助項(xiàng)目的成果代表,與大家分享我們?cè)诨诖笮∧P蛥f(xié)同的低資源數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域的研究成果。我是浙江大學(xué)的王皓波。

如果將AI算法比作“火箭”,那么數(shù)據(jù)標(biāo)注就是推動(dòng)AI的“燃料”,對(duì)訓(xùn)練模型、提高準(zhǔn)確率至關(guān)重要。在當(dāng)前競(jìng)爭(zhēng)激烈的AI市場(chǎng),數(shù)據(jù)標(biāo)注的效率和質(zhì)量將直接影響企業(yè)和組織的AI應(yīng)用效果和競(jìng)爭(zhēng)力。

另一方面,OpenAI發(fā)布的ChatGPT等大模型掀起了一輪研究熱潮。結(jié)合了超大規(guī)模的模型、數(shù)據(jù)和算力,大模型初步涌現(xiàn)了通用智能,對(duì)眾多行業(yè)形成廣泛的應(yīng)用潛力。隨著大模型的發(fā)展,數(shù)據(jù)標(biāo)注也有了新機(jī)遇。首先,大模型在垂直領(lǐng)域的應(yīng)用更需要大量的標(biāo)注數(shù)據(jù),以實(shí)現(xiàn)大模型的領(lǐng)域微調(diào)。其次,大模型內(nèi)蘊(yùn)的通用知識(shí),能夠以低成本構(gòu)建高質(zhì)量數(shù)據(jù),在數(shù)據(jù)標(biāo)注領(lǐng)域?qū)?huì)帶來(lái)新的可能性和突破口。

在國(guó)內(nèi)外,以網(wǎng)易有靈眾包平臺(tái)為代表的多款產(chǎn)品已將大模型融入標(biāo)注的過(guò)程中。然而,面對(duì)垂直領(lǐng)域的產(chǎn)業(yè)需求時(shí),通用大模型往往難以直接輸出標(biāo)注結(jié)果,這些標(biāo)注產(chǎn)品仍需大量借助人類(lèi)知識(shí)進(jìn)行數(shù)據(jù)的標(biāo)簽、校驗(yàn)和修復(fù)。

在這樣的背景下,我們的研究聚焦于如何利用大模型的強(qiáng)大能力,結(jié)合小模型的優(yōu)勢(shì),實(shí)現(xiàn)低資源條件下高效、精準(zhǔn)的數(shù)據(jù)標(biāo)注。我們的研究得到了CCF - 網(wǎng)易雷火聯(lián)合基金的大力支持,這為我們?cè)谠擃I(lǐng)域的探索提供了堅(jiān)實(shí)的保障。

我們?cè)跀?shù)據(jù)標(biāo)注技術(shù)方面的研究是一個(gè)逐步深入、演進(jìn)的過(guò)程,下面將與大家具體分享。

  階段一:魯棒噪聲標(biāo)簽學(xué)習(xí)(IJCAI 2023)

首先,我們?cè)隰敯粼肼晿?biāo)簽學(xué)習(xí)方面開(kāi)展了工作。

在機(jī)器學(xué)習(xí)中,噪聲標(biāo)簽問(wèn)題無(wú)處不在,其來(lái)源廣泛,如機(jī)器生成標(biāo)注數(shù)據(jù)時(shí)的不準(zhǔn)確性以及眾包標(biāo)注者經(jīng)驗(yàn)不足等。經(jīng)典的噪聲標(biāo)簽學(xué)習(xí)算法存在一定局限性,例如樣本選擇- 自訓(xùn)練算法雖能通過(guò)特定方式篩選樣本并進(jìn)行半監(jiān)督學(xué)習(xí),但僅利用少量正確樣本難以達(dá)到理想效果。

CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

基于此,我們?cè)贗JCAI 2023上提出了ProMix算法,該算法通過(guò)創(chuàng)新的progressive selection方式,充分利用干凈樣本,在樣本選擇過(guò)程中先選擇平衡子集,再依據(jù)置信度逐步擴(kuò)大樣本集。同時(shí),算法中的樣本選擇和半監(jiān)督學(xué)習(xí)模塊有效解決了樣本不平衡問(wèn)題,在合成數(shù)據(jù)集和不平衡噪聲樣本數(shù)據(jù)集上都取得了卓越成績(jī),成功奪得首屆IJCAI - 噪聲標(biāo)簽學(xué)習(xí)挑戰(zhàn)賽全賽道冠軍。

階段二:大小模型協(xié)同數(shù)據(jù)標(biāo)注(EMNLP 2023)

隨著大模型時(shí)代的到來(lái),我們進(jìn)一步思考如何將大模型與小模型協(xié)同應(yīng)用于數(shù)據(jù)標(biāo)注領(lǐng)域。這促使我們開(kāi)展了FreeAL框架的研究,并發(fā)表于EMNLP 2023。

在這個(gè)階段,我們發(fā)現(xiàn)傳統(tǒng)弱標(biāo)簽學(xué)習(xí)存在諸多局限,如人工成本難以降低、機(jī)器標(biāo)注精度不足以及小樣本學(xué)習(xí)領(lǐng)域泛化能力較差等問(wèn)題。FreeAL框架旨在實(shí)現(xiàn)無(wú)人工主動(dòng)學(xué)習(xí),其核心原理是充分發(fā)揮大模型(LLM)和小模型(SLM)各自的優(yōu)勢(shì)。大模型具有豐富知識(shí)儲(chǔ)備,雖難以獨(dú)立激活任務(wù)相關(guān)能力,但可通過(guò)生成樣例進(jìn)行初始標(biāo)注,利用其強(qiáng)大的生成能力構(gòu)造上下文學(xué)習(xí)樣例,從而提高初始標(biāo)注準(zhǔn)確率。隨后,小模型進(jìn)行魯棒蒸餾,挑選出弱監(jiān)督訓(xùn)練中損失較小的樣本,通過(guò)半監(jiān)督學(xué)習(xí)進(jìn)一步篩選出干凈樣本和噪聲樣本,并將其反饋給大模型。大小模型通過(guò)協(xié)同訓(xùn)練,不斷迭代優(yōu)化標(biāo)注結(jié)果,直至性能收斂。

CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

(FreeAL 總體框架)

  1.大模型標(biāo)注

在提升大模型的少樣本學(xué)習(xí)(few - shot)性能方面,關(guān)鍵在于獲取充足的示例樣本。因?yàn)榇舜窝芯吭O(shè)定為完全不依賴(lài)人類(lèi)標(biāo)注(Human - Free),在初始標(biāo)注輪次,獲取有效示例樣本并非易事。為此,我們采用一種策略,即引導(dǎo)大模型自行生成演示(demo)樣本。具體操作流程為,向 ChatGPT 明確告知標(biāo)簽的定義,并提供若干未標(biāo)注樣本作為參考示例,使大模型得以學(xué)習(xí)未標(biāo)注文本的風(fēng)格特征,進(jìn)而生成與標(biāo)簽信息相符的樣本。通過(guò)這種方式,我們成功構(gòu)建了初始的上下文學(xué)習(xí)(ICL)示例集合,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),在部分?jǐn)?shù)據(jù)集(如 SUBJ 數(shù)據(jù)集)中,該方法可使準(zhǔn)確率顯著提升 28 個(gè)百分點(diǎn)。在后續(xù)的標(biāo)注輪次中,我們將依據(jù)小模型篩選后的結(jié)果來(lái)開(kāi)展 ICL 操作,從而進(jìn)一步優(yōu)化標(biāo)注效果。

2.小模型蒸餾

在小模型蒸餾階段,我們運(yùn)用了小損失選擇(Small - Loss Selection)策略來(lái)挑選干凈樣本,并結(jié)合半監(jiān)督學(xué)習(xí)技術(shù)開(kāi)展噪聲標(biāo)記學(xué)習(xí)任務(wù)。對(duì)于熟悉弱監(jiān)督學(xué)習(xí)領(lǐng)域的研究者而言,這種方法并不陌生。在小模型訓(xùn)練過(guò)程中,即便篩選出的 “干凈樣本” 集合中存在少量錯(cuò)誤樣本,對(duì)模型性能提升的影響也較為有限。然而,為了確保在上下文學(xué)習(xí)(ICL)過(guò)程中能夠獲得更為精準(zhǔn)的演示樣本集,我們基于損失值對(duì)樣本進(jìn)行逐類(lèi)精心篩選,此操作旨在充分考慮樣本的多樣性,以增強(qiáng)樣本集的代表性。最終,將篩選所得的樣本反饋至大模型,以便對(duì)其進(jìn)行修復(fù)與優(yōu)化。鑒于我們?cè)谇捌谝褜?shí)施了全量標(biāo)注,經(jīng)過(guò)兩個(gè)輪次的迭代,模型基本能夠收斂至理想狀態(tài),從而實(shí)現(xiàn)高效且準(zhǔn)確的數(shù)據(jù)標(biāo)注。

實(shí)驗(yàn)結(jié)果表明,F(xiàn)reeAL在多個(gè)任務(wù)上表現(xiàn)優(yōu)異,其中一個(gè)引人注目的實(shí)驗(yàn)結(jié)果是,在涉及弱監(jiān)督蒸餾得到的RoBERTa 模型的實(shí)驗(yàn)中,僅當(dāng)數(shù)據(jù)集為樣本數(shù)量極少的 SST - 2 和 MR 時(shí),ChatGPT 的表現(xiàn)優(yōu)于 RoBERTa;而一旦數(shù)據(jù)集規(guī)模稍有增大,RoBERTa 執(zhí)行上下文學(xué)習(xí)(ICL)的效果便超越了 ChatGPT。

CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

進(jìn)一步將FreeAL 與傳統(tǒng)的主動(dòng)學(xué)習(xí)(AL)方法進(jìn)行對(duì)比,發(fā)現(xiàn)在特定的一些數(shù)據(jù)集上,F(xiàn)reeAL 能夠取得超越人類(lèi)標(biāo)注結(jié)果的卓越成績(jī)。

CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

然而,我們也認(rèn)識(shí)到,在實(shí)際生產(chǎn)環(huán)境中,僅依靠機(jī)器標(biāo)注是不夠的,標(biāo)注過(guò)程離不開(kāi)人類(lèi)領(lǐng)域知識(shí)的支撐。

階段三:基于大語(yǔ)言模型的協(xié)作式自動(dòng)標(biāo)注系統(tǒng)CORAL(VLDB 2024)

基于FreeAL框架,我們進(jìn)一步研發(fā)了CORAL框架,相關(guān)成果《CORAL: Collaborative Automatic Labeling System

based on Large Language Models》成功入選VLDB 2024。CORAL框架提供了一種協(xié)作式自動(dòng)標(biāo)注原型系統(tǒng),旨在減少人工參與并確保高質(zhì)量的數(shù)據(jù)標(biāo)注。通過(guò)結(jié)合大模型(LLM)和小模型(SLM)的協(xié)同工作,CORAL實(shí)現(xiàn)了初步的自動(dòng)化標(biāo)注流程,并以低成本提供可靠的標(biāo)簽數(shù)據(jù),極大地降低了數(shù)據(jù)標(biāo)注的時(shí)間和人工成本。

CORAL框架的工作流程包含大小模型協(xié)同標(biāo)注體系、手動(dòng)精煉模塊和迭代過(guò)程控制器。其大小模型協(xié)同標(biāo)注體系繼承了FreeAL的優(yōu)勢(shì),能夠自動(dòng)形成大量數(shù)據(jù)標(biāo)注。手動(dòng)精煉模塊是CORAL的一大特色,它引入了人機(jī)協(xié)同的標(biāo)注范式。通過(guò)網(wǎng)易有靈眾包平臺(tái)的用戶(hù)界面,用戶(hù)可以對(duì)標(biāo)注結(jié)果進(jìn)行審查,針對(duì)低置信度樣本進(jìn)行人工校正。這一模塊使得用戶(hù)能夠?qū)W⒂谔幚碜罹咛魬?zhàn)性的樣本,從而在有限的人工參與下有效提升標(biāo)注數(shù)據(jù)的質(zhì)量。迭代過(guò)程控制器則進(jìn)一步增強(qiáng)了CORAL系統(tǒng)的有效性,它通過(guò)采集高置信度樣本,不斷優(yōu)化大模型(LLM)和小模型(SLM)的標(biāo)注精度,實(shí)現(xiàn)標(biāo)簽質(zhì)量的持續(xù)改進(jìn)。

CNCC 2024 演講實(shí)錄:基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

目前,我們正在探索將大小模型協(xié)同標(biāo)注系統(tǒng)與網(wǎng)易有靈平臺(tái)的AOP體系深度集成。在當(dāng)前的標(biāo)注環(huán)境中,盡管大模型和小模型的協(xié)同已經(jīng)能夠處理大部分簡(jiǎn)單的數(shù)據(jù)標(biāo)注任務(wù),但復(fù)雜樣本仍需要人類(lèi)的專(zhuān)業(yè)知識(shí)和精準(zhǔn)判斷。通過(guò)這種集成,我們期望構(gòu)建一個(gè)更加高效、智能的人機(jī)協(xié)同Agent調(diào)度體系。在這個(gè)體系中,大小模型協(xié)同標(biāo)注系統(tǒng)能夠精準(zhǔn)定位那些尚未得到妥善解決的樣本,然后由網(wǎng)易有靈眾包平臺(tái)引入人工干預(yù),進(jìn)行人機(jī)協(xié)同標(biāo)注。人類(lèi)標(biāo)注員憑借其專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn),對(duì)復(fù)雜樣本進(jìn)行處理,從而實(shí)現(xiàn)最佳標(biāo)注結(jié)果。這不僅將提高數(shù)據(jù)標(biāo)注的準(zhǔn)確性和可靠性,還將推動(dòng)數(shù)據(jù)標(biāo)注技術(shù)在更廣泛領(lǐng)域的應(yīng)用,為人工智能技術(shù)的發(fā)展提供更強(qiáng)大的數(shù)據(jù)支持。

最后,再次感謝CCF - 網(wǎng)易雷火聯(lián)合基金的支持,感謝網(wǎng)易伏羲提供的平臺(tái)與合作機(jī)會(huì),感謝團(tuán)隊(duì)成員的辛勤付出,也感謝各位嘉賓的聆聽(tīng)!希望我們的研究成果能夠?yàn)閿?shù)據(jù)標(biāo)注領(lǐng)域的發(fā)展貢獻(xiàn)一份力量,共同推動(dòng)人工智能技術(shù)邁向新的高度。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )