近日,騰訊云AI與騰訊優(yōu)圖實驗室的加速團隊在CLUE語言分類任務上進行試驗,一舉在CLUE分類任務1.0和1.1中拿下業(yè)界第一的好成績。
(HUMAN為人類標注成績,非模型效果,不參與排名。)
如何與AI進行無障礙的對話?
近年來隨著人工智能的發(fā)展,NLP(自然語言處理)一直是業(yè)內(nèi)外關注的焦點,其中預訓練模型(Pre-Trained Model,PTM)技術作為當下最具有革命性的創(chuàng)新成果,正成為國內(nèi)外互聯(lián)網(wǎng)企業(yè)探索的重點,構建以中文為核心的超大規(guī)模預訓練模型及生態(tài)勢在必行,各大公司在反哺自身業(yè)務的同時紛紛向CLUE榜單發(fā)起“沖鋒”。
CLUE是中文語言理解領域最具權威性的測評基準之一,涵蓋了文本相似度、分類、閱讀理解等眾多語義分析和理解類子任務。作為“刷榜利器”的預訓練模型就是通過在大規(guī)模文本上匯聚大量算力,不斷集約化地訓練大模型,預訓練出通用的語言特征,就可以提供給大量企業(yè)使用,大大降低了自然語言處理研究和應用的門檻。
“工欲善其事,必先利其器”
騰訊云TI平臺是基于騰訊云強大計算能力的一站式機器學習生態(tài)服務平臺。它能夠對各種數(shù)據(jù)源、組件、算法、模型和評估模塊進行組合,使得算法工程師和數(shù)據(jù)科學家在其之上能夠方便地進行模型訓練、評估和預測。TI系列產(chǎn)品支持公有云訪問、私有化部署以及專屬云部署。
TI-ACC是騰訊云AI和優(yōu)圖實驗室最新發(fā)布的一款AI加速組件產(chǎn)品,是基于優(yōu)圖實驗室開源的跨平臺高性能推理框架TNN和訓練框架(TI系列)基礎上的一次全新升級,能同時為企業(yè)提供AI模型訓練和推理加速服務,支持多種框架和場景,能夠顯著提高模型訓練推理效率、降低成本。
本次大模型的預訓練完全依托于騰訊云TI平臺,并采用TI-ACC進行訓練加速。整體的訓練方案如下:
首先,模型的出色效果離不開背后海量優(yōu)質中文預訓練語料的支持。騰訊云團隊在TI平臺上構建了海量語料的預處理、清洗和評估任務,匯集了小說、新聞、社區(qū)評論等的不同領域的優(yōu)質內(nèi)容,以及各學科論文、應用描述等專業(yè)性較強的特定內(nèi)容,篩選出數(shù)百GB高質量中文語料,確保數(shù)據(jù)“來源廣”且“質量精”。
在此基礎上,針對NLP超大模型的特點和存在的問題,騰訊云團隊結合底層基礎設施在單機計算性能和多機擴展兩方面進行了深度優(yōu)化。在計算性能優(yōu)化方面,TI-ACC對Transformer結構模型進行了稀疏化計算、算子融合、動態(tài)文本長度輸入等優(yōu)化。在多機擴展上,采用了Zero-DP技術結合反向圖顯存節(jié)省、大模型參數(shù)多輪通信、應用層NCCL通信優(yōu)化和參數(shù)自動調(diào)優(yōu)等優(yōu)化手段。最終,TI-ACC能夠高效訓練千億級參數(shù)的NLP大模型,極大的提升了模型預訓練效率。
此外,我們在模型上對Transformer結構做了微調(diào),再加上漸進式的課程學習訓練方案,使得大模型能夠更快學會更多的知識。
此次登頂CLUE榜單,一方面代表了騰訊云在NLP生態(tài)領域達到了業(yè)內(nèi)領先水平,另一方面預示著TI-ACC助力中文預訓練模型在高效訓練和推理方面邁上新臺階。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )