123,123

在科技蓬勃發(fā)展的時(shí)代浪潮中，人工智能領(lǐng)域的每一次突破都離不開持續(xù)的科研投入和對前沿技術(shù)的不懈探索。2023 年，網(wǎng)易伏羲與中國計(jì)算機(jī)學(xué)會(huì)(CCF)共同發(fā)起了 “CCF - 網(wǎng)易雷火聯(lián)合基金”，致力于發(fā)揮和利用多方資源優(yōu)勢，加強(qiáng)與海內(nèi)外青年學(xué)者的科研合作，促進(jìn)中國人工智能等領(lǐng)域尖端技術(shù)產(chǎn)業(yè)的進(jìn)步，并加快校企合作、技術(shù)成果轉(zhuǎn)化落地。

自成立以來，CCF-網(wǎng)易雷火聯(lián)合基金始終致力于推動(dòng)科研成果的轉(zhuǎn)化與應(yīng)用，受到了學(xué)者們的廣泛關(guān)注與支持。在 2024 中國計(jì)算機(jī)大會(huì)(CNCC2024)上，CCF - 網(wǎng)易雷火聯(lián)合基金首批優(yōu)秀成果重磅發(fā)布。浙江大學(xué)軟件學(xué)院百人計(jì)劃研究員王皓波老師作為基金優(yōu)秀代表，現(xiàn)場分享了其在基金資助下的課題成果《基于大小模型協(xié)同的低資源標(biāo)注技術(shù)》，該技術(shù)通過整合大模型與小模型的優(yōu)勢，為解決數(shù)據(jù)標(biāo)注中的低資源困境提供了全新思路，有望在提升標(biāo)注效率和質(zhì)量方面帶來顯著突破，助力人工智能產(chǎn)業(yè)實(shí)現(xiàn)更高效的數(shù)據(jù)驅(qū)動(dòng)發(fā)展。

CNCC 2024 演講實(shí)錄：基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

以下為王皓波老師的演講實(shí)錄：

大家好!非常榮幸能夠在這里，作為CCF - 網(wǎng)易雷火基金資助項(xiàng)目的成果代表，與大家分享我們在基于大小模型協(xié)同的低資源數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)域的研究成果。我是浙江大學(xué)的王皓波。

如果將AI算法比作“火箭”，那么數(shù)據(jù)標(biāo)注就是推動(dòng)AI的“燃料”，對訓(xùn)練模型、提高準(zhǔn)確率至關(guān)重要。在當(dāng)前競爭激烈的AI市場，數(shù)據(jù)標(biāo)注的效率和質(zhì)量將直接影響企業(yè)和組織的AI應(yīng)用效果和競爭力。

另一方面，OpenAI發(fā)布的ChatGPT等大模型掀起了一輪研究熱潮。結(jié)合了超大規(guī)模的模型、數(shù)據(jù)和算力，大模型初步涌現(xiàn)了通用智能，對眾多行業(yè)形成廣泛的應(yīng)用潛力。隨著大模型的發(fā)展，數(shù)據(jù)標(biāo)注也有了新機(jī)遇。首先，大模型在垂直領(lǐng)域的應(yīng)用更需要大量的標(biāo)注數(shù)據(jù)，以實(shí)現(xiàn)大模型的領(lǐng)域微調(diào)。其次，大模型內(nèi)蘊(yùn)的通用知識(shí)，能夠以低成本構(gòu)建高質(zhì)量數(shù)據(jù)，在數(shù)據(jù)標(biāo)注領(lǐng)域?qū)?huì)帶來新的可能性和突破口。

在國內(nèi)外，以網(wǎng)易有靈眾包平臺(tái)為代表的多款產(chǎn)品已將大模型融入標(biāo)注的過程中。然而，面對垂直領(lǐng)域的產(chǎn)業(yè)需求時(shí)，通用大模型往往難以直接輸出標(biāo)注結(jié)果，這些標(biāo)注產(chǎn)品仍需大量借助人類知識(shí)進(jìn)行數(shù)據(jù)的標(biāo)簽、校驗(yàn)和修復(fù)。

在這樣的背景下，我們的研究聚焦于如何利用大模型的強(qiáng)大能力，結(jié)合小模型的優(yōu)勢，實(shí)現(xiàn)低資源條件下高效、精準(zhǔn)的數(shù)據(jù)標(biāo)注。我們的研究得到了CCF - 網(wǎng)易雷火聯(lián)合基金的大力支持，這為我們在該領(lǐng)域的探索提供了堅(jiān)實(shí)的保障。

我們在數(shù)據(jù)標(biāo)注技術(shù)方面的研究是一個(gè)逐步深入、演進(jìn)的過程，下面將與大家具體分享。

　　階段一：魯棒噪聲標(biāo)簽學(xué)習(xí)(IJCAI 2023)

首先，我們在魯棒噪聲標(biāo)簽學(xué)習(xí)方面開展了工作。

在機(jī)器學(xué)習(xí)中，噪聲標(biāo)簽問題無處不在，其來源廣泛，如機(jī)器生成標(biāo)注數(shù)據(jù)時(shí)的不準(zhǔn)確性以及眾包標(biāo)注者經(jīng)驗(yàn)不足等。經(jīng)典的噪聲標(biāo)簽學(xué)習(xí)算法存在一定局限性，例如樣本選擇- 自訓(xùn)練算法雖能通過特定方式篩選樣本并進(jìn)行半監(jiān)督學(xué)習(xí)，但僅利用少量正確樣本難以達(dá)到理想效果。

CNCC 2024 演講實(shí)錄：基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

基于此，我們在IJCAI 2023上提出了ProMix算法，該算法通過創(chuàng)新的progressive selection方式，充分利用干凈樣本，在樣本選擇過程中先選擇平衡子集，再依據(jù)置信度逐步擴(kuò)大樣本集。同時(shí)，算法中的樣本選擇和半監(jiān)督學(xué)習(xí)模塊有效解決了樣本不平衡問題，在合成數(shù)據(jù)集和不平衡噪聲樣本數(shù)據(jù)集上都取得了卓越成績，成功奪得首屆IJCAI - 噪聲標(biāo)簽學(xué)習(xí)挑戰(zhàn)賽全賽道冠軍。

階段二：大小模型協(xié)同數(shù)據(jù)標(biāo)注(EMNLP 2023)

隨著大模型時(shí)代的到來，我們進(jìn)一步思考如何將大模型與小模型協(xié)同應(yīng)用于數(shù)據(jù)標(biāo)注領(lǐng)域。這促使我們開展了FreeAL框架的研究，并發(fā)表于EMNLP 2023。

在這個(gè)階段，我們發(fā)現(xiàn)傳統(tǒng)弱標(biāo)簽學(xué)習(xí)存在諸多局限，如人工成本難以降低、機(jī)器標(biāo)注精度不足以及小樣本學(xué)習(xí)領(lǐng)域泛化能力較差等問題。FreeAL框架旨在實(shí)現(xiàn)無人工主動(dòng)學(xué)習(xí)，其核心原理是充分發(fā)揮大模型(LLM)和小模型(SLM)各自的優(yōu)勢。大模型具有豐富知識(shí)儲(chǔ)備，雖難以獨(dú)立激活任務(wù)相關(guān)能力，但可通過生成樣例進(jìn)行初始標(biāo)注，利用其強(qiáng)大的生成能力構(gòu)造上下文學(xué)習(xí)樣例，從而提高初始標(biāo)注準(zhǔn)確率。隨后，小模型進(jìn)行魯棒蒸餾，挑選出弱監(jiān)督訓(xùn)練中損失較小的樣本，通過半監(jiān)督學(xué)習(xí)進(jìn)一步篩選出干凈樣本和噪聲樣本，并將其反饋給大模型。大小模型通過協(xié)同訓(xùn)練，不斷迭代優(yōu)化標(biāo)注結(jié)果，直至性能收斂。

CNCC 2024 演講實(shí)錄：基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

(FreeAL 總體框架)

　　1.大模型標(biāo)注

在提升大模型的少樣本學(xué)習(xí)(few - shot)性能方面，關(guān)鍵在于獲取充足的示例樣本。因?yàn)榇舜窝芯吭O(shè)定為完全不依賴人類標(biāo)注(Human - Free)，在初始標(biāo)注輪次，獲取有效示例樣本并非易事。為此，我們采用一種策略，即引導(dǎo)大模型自行生成演示(demo)樣本。具體操作流程為，向 ChatGPT 明確告知標(biāo)簽的定義，并提供若干未標(biāo)注樣本作為參考示例，使大模型得以學(xué)習(xí)未標(biāo)注文本的風(fēng)格特征，進(jìn)而生成與標(biāo)簽信息相符的樣本。通過這種方式，我們成功構(gòu)建了初始的上下文學(xué)習(xí)(ICL)示例集合，經(jīng)實(shí)驗(yàn)發(fā)現(xiàn)，在部分?jǐn)?shù)據(jù)集(如 SUBJ 數(shù)據(jù)集)中，該方法可使準(zhǔn)確率顯著提升 28 個(gè)百分點(diǎn)。在后續(xù)的標(biāo)注輪次中，我們將依據(jù)小模型篩選后的結(jié)果來開展 ICL 操作，從而進(jìn)一步優(yōu)化標(biāo)注效果。

2.小模型蒸餾

在小模型蒸餾階段，我們運(yùn)用了小損失選擇(Small - Loss Selection)策略來挑選干凈樣本，并結(jié)合半監(jiān)督學(xué)習(xí)技術(shù)開展噪聲標(biāo)記學(xué)習(xí)任務(wù)。對于熟悉弱監(jiān)督學(xué)習(xí)領(lǐng)域的研究者而言，這種方法并不陌生。在小模型訓(xùn)練過程中，即便篩選出的 “干凈樣本” 集合中存在少量錯(cuò)誤樣本，對模型性能提升的影響也較為有限。然而，為了確保在上下文學(xué)習(xí)(ICL)過程中能夠獲得更為精準(zhǔn)的演示樣本集，我們基于損失值對樣本進(jìn)行逐類精心篩選，此操作旨在充分考慮樣本的多樣性，以增強(qiáng)樣本集的代表性。最終，將篩選所得的樣本反饋至大模型，以便對其進(jìn)行修復(fù)與優(yōu)化。鑒于我們在前期已實(shí)施了全量標(biāo)注，經(jīng)過兩個(gè)輪次的迭代，模型基本能夠收斂至理想狀態(tài)，從而實(shí)現(xiàn)高效且準(zhǔn)確的數(shù)據(jù)標(biāo)注。

實(shí)驗(yàn)結(jié)果表明，F(xiàn)reeAL在多個(gè)任務(wù)上表現(xiàn)優(yōu)異，其中一個(gè)引人注目的實(shí)驗(yàn)結(jié)果是，在涉及弱監(jiān)督蒸餾得到的RoBERTa 模型的實(shí)驗(yàn)中，僅當(dāng)數(shù)據(jù)集為樣本數(shù)量極少的 SST - 2 和 MR 時(shí)，ChatGPT 的表現(xiàn)優(yōu)于 RoBERTa;而一旦數(shù)據(jù)集規(guī)模稍有增大，RoBERTa 執(zhí)行上下文學(xué)習(xí)(ICL)的效果便超越了 ChatGPT。

CNCC 2024 演講實(shí)錄：基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

進(jìn)一步將FreeAL 與傳統(tǒng)的主動(dòng)學(xué)習(xí)(AL)方法進(jìn)行對比，發(fā)現(xiàn)在特定的一些數(shù)據(jù)集上，F(xiàn)reeAL 能夠取得超越人類標(biāo)注結(jié)果的卓越成績。

CNCC 2024 演講實(shí)錄：基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

然而，我們也認(rèn)識(shí)到，在實(shí)際生產(chǎn)環(huán)境中，僅依靠機(jī)器標(biāo)注是不夠的，標(biāo)注過程離不開人類領(lǐng)域知識(shí)的支撐。

階段三：基于大語言模型的協(xié)作式自動(dòng)標(biāo)注系統(tǒng)CORAL(VLDB 2024)

基于FreeAL框架，我們進(jìn)一步研發(fā)了CORAL框架，相關(guān)成果《CORAL: Collaborative Automatic Labeling System

based on Large Language Models》成功入選VLDB 2024。CORAL框架提供了一種協(xié)作式自動(dòng)標(biāo)注原型系統(tǒng)，旨在減少人工參與并確保高質(zhì)量的數(shù)據(jù)標(biāo)注。通過結(jié)合大模型(LLM)和小模型(SLM)的協(xié)同工作，CORAL實(shí)現(xiàn)了初步的自動(dòng)化標(biāo)注流程，并以低成本提供可靠的標(biāo)簽數(shù)據(jù)，極大地降低了數(shù)據(jù)標(biāo)注的時(shí)間和人工成本。

CORAL框架的工作流程包含大小模型協(xié)同標(biāo)注體系、手動(dòng)精煉模塊和迭代過程控制器。其大小模型協(xié)同標(biāo)注體系繼承了FreeAL的優(yōu)勢，能夠自動(dòng)形成大量數(shù)據(jù)標(biāo)注。手動(dòng)精煉模塊是CORAL的一大特色，它引入了人機(jī)協(xié)同的標(biāo)注范式。通過網(wǎng)易有靈眾包平臺(tái)的用戶界面，用戶可以對標(biāo)注結(jié)果進(jìn)行審查，針對低置信度樣本進(jìn)行人工校正。這一模塊使得用戶能夠?qū)Ｗ⒂谔幚碜罹咛魬?zhàn)性的樣本，從而在有限的人工參與下有效提升標(biāo)注數(shù)據(jù)的質(zhì)量。迭代過程控制器則進(jìn)一步增強(qiáng)了CORAL系統(tǒng)的有效性，它通過采集高置信度樣本，不斷優(yōu)化大模型(LLM)和小模型(SLM)的標(biāo)注精度，實(shí)現(xiàn)標(biāo)簽質(zhì)量的持續(xù)改進(jìn)。

CNCC 2024 演講實(shí)錄：基于大小模型協(xié)同的低資源標(biāo)注技術(shù)

目前，我們正在探索將大小模型協(xié)同標(biāo)注系統(tǒng)與網(wǎng)易有靈平臺(tái)的AOP體系深度集成。在當(dāng)前的標(biāo)注環(huán)境中，盡管大模型和小模型的協(xié)同已經(jīng)能夠處理大部分簡單的數(shù)據(jù)標(biāo)注任務(wù)，但復(fù)雜樣本仍需要人類的專業(yè)知識(shí)和精準(zhǔn)判斷。通過這種集成，我們期望構(gòu)建一個(gè)更加高效、智能的人機(jī)協(xié)同Agent調(diào)度體系。在這個(gè)體系中，大小模型協(xié)同標(biāo)注系統(tǒng)能夠精準(zhǔn)定位那些尚未得到妥善解決的樣本，然后由網(wǎng)易有靈眾包平臺(tái)引入人工干預(yù)，進(jìn)行人機(jī)協(xié)同標(biāo)注。人類標(biāo)注員憑借其專業(yè)知識(shí)和經(jīng)驗(yàn)，對復(fù)雜樣本進(jìn)行處理，從而實(shí)現(xiàn)最佳標(biāo)注結(jié)果。這不僅將提高數(shù)據(jù)標(biāo)注的準(zhǔn)確性和可靠性，還將推動(dòng)數(shù)據(jù)標(biāo)注技術(shù)在更廣泛領(lǐng)域的應(yīng)用，為人工智能技術(shù)的發(fā)展提供更強(qiáng)大的數(shù)據(jù)支持。

最后，再次感謝CCF - 網(wǎng)易雷火聯(lián)合基金的支持，感謝網(wǎng)易伏羲提供的平臺(tái)與合作機(jī)會(huì)，感謝團(tuán)隊(duì)成員的辛勤付出，也感謝各位嘉賓的聆聽!希望我們的研究成果能夠?yàn)閿?shù)據(jù)標(biāo)注領(lǐng)域的發(fā)展貢獻(xiàn)一份力量，共同推動(dòng)人工智能技術(shù)邁向新的高度。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）