Colossal-AI助力,摩爾線程預訓練語言模型MusaBert榮登CLUE榜單TOP10

摩爾線程聯(lián)合潞晨科技研發(fā)的預訓練語言模型MusaBert(MUSA為摩爾線程提出的通用元計算架構),在12月16日的中文語言理解領域權威CLUE榜單上進入TOP 10,最終以82.889得分在CLUE1.1總排行榜中排名(除人類成績以外)第9,并在AFQMC任務中以86.92分取得排名第一的成績,這意味著摩爾線程AI在語義理解與匹配能力上超越了人類水平。同時,這也是潞晨科技的AI大模型開發(fā)系統(tǒng)Colossal-AI在自然語言處理領域應用的重要進展。

image003.jpg(2022年12月16日CLUE1.1總排行榜最新成績)

相較于CLUE總排行榜TOP 10的其他中文預訓練模型,MusaBert僅包含3億參數(shù)量,是前十名中規(guī)模最小的模型,并且為單模型(single model),沒有進行任何集成。此外,摩爾線程基于MusaBert的語義嵌入模型MusaSim在AFQMC任務上擊敗一眾大規(guī)模模型,取得第一名,不僅為檢索系統(tǒng)、分類對話等更深度語義理解研究打下堅固基石,也證明了摩爾線程在中文自然語言處理領域和低資源大模型訓練方面的強大能力。

一直以來,語義理解都是NLP(自然語言處理)技術的重要目標,通過一系列AI算法,可將文本解析為結構化的、機器可讀的意圖與詞槽信息。通常來說,訓練數(shù)據(jù)的獲取與處理、模型的迭代和訓練等都是NLP技術的落地難點。MusaBert僅使用了極少的參數(shù)量便取得了比肩甚至超越百億參數(shù)大模型的成績,主要是得益于多方面獲得的突破性進展:

· 技術層面:摩爾線程擁有“軟硬一體”的技術能力,使得MusaBert能夠從底到上進行優(yōu)化;摩爾線程多功能GPU內置AI加速和并行計算等硬件模塊,能夠提供AI和科學計算在內的全棧功能,能夠為AI推理計算加速、低資源大模型訓練等應用場景提供通用、高性價比、節(jié)能環(huán)保的AI能力。

· 算法層面:MusaBert使用了潞晨科技的AI大模型開發(fā)系統(tǒng)Colossal-AI,在上游訓練方面,充分發(fā)揮了該系統(tǒng)的易用性及強大的并行訓練性能,同時MusaBert針對模型數(shù)據(jù)預處理使用的DataLoader進行了優(yōu)化,可以在低資源的條件下快速處理大規(guī)模數(shù)據(jù);在下游任務方面,摩爾線程通過采用合適的優(yōu)化建模、在領域內進行數(shù)據(jù)增強以及在模型的訓練優(yōu)化中采用了先進的Adan優(yōu)化器等方式,盡可能發(fā)掘和展現(xiàn)出預訓練語言模型強大的語義理解能力。摩爾線程自研的語義嵌入模型MusaSim以MusaBert為基座模型,使用對比學習方法進行訓練,并利用了摩爾線程收集的百萬對有監(jiān)督數(shù)據(jù)。得益于MusaBert和高質量的數(shù)據(jù)集,MusaSim不僅在語義相似度任務上超越了眾多更大規(guī)模的模型,在意圖識別、情緒分析等分類任務上,也能得到較好的效果。

·  數(shù)據(jù)層面:MusaBert除使用了摩爾線程自身收集的高質量語義相似數(shù)據(jù)以外,還使用了200GB悟道開源數(shù)據(jù)和80GB的CLUE社區(qū)數(shù)據(jù),以及浪潮電子信息產業(yè)股份有限公司提供的1T高質量數(shù)據(jù)集。大規(guī)模高質量的數(shù)據(jù)使得模型在相對小的規(guī)模下仍然保持了較高的性能。

目前,MusaBert作為基座模型,已經(jīng)應用于摩爾線程研發(fā)的智能客服與數(shù)字人等項目,并相繼在下游語義相似度、情緒識別、閱讀理解、聲韻識別等領域落地。

為了更進一步降低大模型開發(fā)和應用的門檻,MusaBert代碼現(xiàn)已開源到Colossal-AI倉庫(https://github.com/hpcaitech/ColossalAI/tree/main/examples/language/roberta),使用該腳本,可在短時間內訓練出高質量的中文Bert模型。包括MusaBert和MusaSim在內的一系列高質量模型也將在近期開源以貢獻中文NLP社區(qū)。此外,經(jīng)摩爾線程與潞晨科技的嚴格測試,僅通過摩爾線程多功能GPU單卡,即可進行MusaBert甚至是更大規(guī)模的GPT2的訓練,大大降低了預訓練成本,這也為雙方實現(xiàn)低資源大模型訓練的共同愿景,邁出了堅實一步。

作為中文語言理解領域最具權威性的測評基準之一,CLUE 涵蓋文本相似度、分類、自然語言推理、閱讀理解等眾多語義分析和理解類子任務,工業(yè)界和學術界紛紛用 CLUE 作為預訓練算法能力的驗證和衡量標準。此次進入CLUE榜單TOP 10,代表了摩爾線程與潞晨科技聯(lián)合研發(fā)團隊在中文預訓練研究領域已達到業(yè)內領先水平。

展望未來,摩爾線程還將與潞晨科技緊密合作,著手更適當規(guī)模的自然語言大模型研究,充分利用上游數(shù)據(jù),產出能力更強的模型并且開源。同時,保持算法和系統(tǒng)兩個層面并行,持續(xù)優(yōu)化大模型在摩爾線程多功能GPU上的訓練能力,尤其在單張消費級顯卡等低資源場景下的訓練能力,可以大大降低使用大模型訓練的門檻和成本,進一步促進AI民主化。

關于潞晨科技

潞晨科技是一家致力于“解放AI生產力”的全球性公司,核心產品面向大模型時代的通用深度學習系統(tǒng) Colossal-AI,可實現(xiàn)高效快速部署AI大模型訓練和推理,降低AI大模型應用成本。自開源以來,Colossal-AI已經(jīng)多次在GitHub熱榜位列世界第一,獲得GitHub Star約七千顆,并成功入選SC、AAAI、PPoPP等國際AI與HPC頂級會議的官方教程。相關解決方案已成功在自動駕駛、云計算、零售、醫(yī)藥、芯片等行業(yè)知名廠商落地應用、廣受好評。

關于摩爾線程

摩爾線程智能科技(北京)有限責任公司是一家以GPU芯片設計為主的集成電路高科技公司,專注于研發(fā)設計全功能GPU芯片及相關產品,能夠為中國科技生態(tài)合作伙伴提供強大的計算加速能力。公司成立于2020年10月,致力于創(chuàng)新面向元計算應用的新一代GPU,構建融合視覺計算、3D圖形計算、科學計算及人工智能計算的綜合計算平臺,建立基于云原生GPU計算的生態(tài)系統(tǒng),助力驅動數(shù)字經(jīng)濟發(fā)展。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2022-12-19
Colossal-AI助力,摩爾線程預訓練語言模型MusaBert榮登CLUE榜單TOP10
摩爾線程聯(lián)合潞晨科技研發(fā)的預訓練語言模型MusaBert(MUSA為摩爾線程提出的通用元計算架構),在12月16日的中文語言理解領域權威CLUE榜單上進入TOP 10,最終以82.889得分在CLUE1.1總排行榜中排名(除人類成績以外)第9,并在AFQMC任務中以86.92分取得排名第一的成績,這意味著摩爾線...

長按掃碼 閱讀全文