123,123

在當下人工智能領(lǐng)域，大語言模型將為各行各業(yè)帶來顛覆性的效率革命和體驗升級，這已經(jīng)成為了業(yè)界共識。借此，一場由ChatGPT引發(fā)的“百模大戰(zhàn)”早已轟轟烈烈地拉開序幕，縱觀整個科技圈，幾乎所有高科技公司都在打造自己的大語言模型，更有專家斷言，不出意外，將很快升級為“千模大戰(zhàn)”。

面對國內(nèi)大語言模型萬箭齊發(fā)的局面，如何更好地提升大語言模型對中文的理解能力，更好地服務于全球的中文用戶，甲骨易AI研究院首創(chuàng)性地推出了高質(zhì)量中文評測數(shù)據(jù)集——一款名為“超越”(Massive Multitask Chinese Understanding，簡稱MMCU)的大規(guī)模的多任務測試數(shù)據(jù)集，填補了中文大語言模型能力測試缺失的一大空白。5月20日，一場以“大模型實際應用與場景化落地”為主題的研討沙龍暨“超越”MMCU測試數(shù)據(jù)集產(chǎn)品發(fā)布會在甲骨易第三空間拉開序幕。

國內(nèi)首個大模型評測數(shù)據(jù)集（MMCU）問世加速完善國產(chǎn)AI產(chǎn)業(yè)圖譜.jpg

本次沙龍由甲骨易AI研究院主辦，來自中科院、北京大學、北京外國語大學、哈薩克恩斯坦國立大學等學術(shù)界代表，中關(guān)村軟件園、小米、咪咕、快手、商湯、霖瓏云、博思眾智、智譜華章、中航出版?zhèn)髅降犬a(chǎn)業(yè)界代表以及多家科技媒體代表出席了本次沙龍活動，并針對大語言模型的數(shù)據(jù)量與評價標準等相關(guān)話題，暢所欲言，展開了熱烈的討論。

邁向認知智能演進的過程

在本次沙龍活動中，北京外國語大學人工智能與人類語言重點實驗室主任、多語自然語言處理研究中心主任李佐文進行了精彩的開場致辭。李佐文認為，語言智能包括對人類語言機理的研究以及對自然語言的技術(shù)處理研究兩大板塊，這兩個領(lǐng)域都應深入研究，并肩發(fā)展，機器方能有望像人一樣理解自然的語言，生成自然的語言。來自甲骨易的數(shù)據(jù)服務事業(yè)部負責人王敏在致辭中提及，甲骨易創(chuàng)始之初正是為了搭建人與人之間的溝通交流，跨越語言跨越文化之間的障礙，而當下正是要搭建人與機器，甚至是機器與機器之間的溝通橋梁——這也正是甲骨易AI研究院成立的初心。

北京外國語大學人工智能與人類語言重點實驗室主任李佐文致辭.jpg

圖1：北京外國語大學人工智能與人類語言重點實驗室主任李佐文致辭

甲骨易數(shù)據(jù)服務事業(yè)部負責人王敏致辭.jpg

圖2：甲骨易數(shù)據(jù)服務事業(yè)部負責人王敏致辭

眾所周知，人工智能技術(shù)在飛速演進。沙龍上，來自小米公司的大模型數(shù)據(jù)負責人彭力進行了以《小米遇上大模型》為主題的精彩演講，他介紹了業(yè)界中定義的人工智能產(chǎn)業(yè)發(fā)展演變的四個層面：第一層叫運算智能層（早已實現(xiàn)），第二層叫感知智能層（目前已在多領(lǐng)域接近人類水平），第三層是認知智能（尚在推進中），第四層才是通用智能層（尚有距離）。其中，第三層的認知智能指的是在感知智能的基礎上進一步的理解、思考和解釋。他指出，我們正在向通用人工智能演進，而大語言模型則可以加速人工智能演進的進程與當前面臨的技術(shù)難點，并展示了小米在大語言模型領(lǐng)域的最新進展。

小米大模型數(shù)據(jù)負責人彭力發(fā)言.jpg

圖3：小米大模型數(shù)據(jù)負責人彭力發(fā)言

實際上，ChatGPT最早主要是針對文本語料進行大規(guī)模的學習，后來數(shù)據(jù)參數(shù)達到了數(shù)千億量級，便有了大語言模型的說法。彭力表示，在訓練大語言模型的過程中，諸如廣告等噪聲數(shù)據(jù)，以及大量的同質(zhì)化語料等因素都會影響訓練的效果，甚至還會面臨數(shù)據(jù)版權(quán)的風險。來自北京外國語大學的李佐文則在分享中直言，業(yè)界通過自然語言處理等辦法，竭盡全力想讓機器理解人類的語言，依舊是挑戰(zhàn)重重。

國產(chǎn)中文大語言模型體系亟待完善

我們需要看清這樣的現(xiàn)實，國內(nèi)大語言模型和國際一流仍有差距，超越并非一朝一夕就可以實現(xiàn)。當下，國內(nèi)廠商往往采取的是模仿與跟隨策略，盡管未來有望彎道超車，甚至后來者居上，但當下就有一些廠商宣稱將實現(xiàn)通用模型對標ChatGPT，中文大模型能夠超越ChatGPT的當前版本，與之旗鼓相當，并在多領(lǐng)域做到業(yè)界領(lǐng)先，無疑這樣的說辭，也只是停留在口號之上，尚未經(jīng)過實踐驗證。

盡管對標ChatGPT等豪言壯語已響徹耳畔，但只憑借廠商只言片語的宣傳描述，以及對特定數(shù)據(jù)評測案例的展示，其數(shù)據(jù)樣本遠遠不足以及摻入了廠商的主觀意愿，導致現(xiàn)有數(shù)據(jù)資料不足以展現(xiàn)各大廠商之間大模型技術(shù)能力之間的差異性，也使得用戶很難真正了解各家技術(shù)能力的優(yōu)勢所在。在這樣的背景之下，許多優(yōu)秀的國產(chǎn)大模型被淹沒在這種噪聲當中，嚴重制約了國產(chǎn)大模型乃至人工智能產(chǎn)業(yè)的發(fā)展。因此，如何發(fā)現(xiàn)大模型的缺陷，以及如何更好地理解包括中文在內(nèi)的人類語言文本？…..這一系列問題擺在了當下以ChatGLM、MOSS、文心一言、通義千問、商量、星火等眾多具備中文能力的大模型廠商面前。

鑒于國外率先開啟了大模型研究，針對英文大語言模型已經(jīng)有較為完善的評測方式，如2021年由DanHendrycks等人發(fā)布的MMLU。然而針對中文大語言模型，卻仍處于空白。需要指出的是，國外的很多機構(gòu)研究發(fā)現(xiàn)，數(shù)據(jù)量與分布對于訓練模型的配比方式非常重要，Common crawl這種大數(shù)據(jù)集語言分布是不均勻的，英文占了46%，中文只占了5%。這樣配比導致后續(xù)的大模型進行參照訓練時，會發(fā)現(xiàn)在中文語料缺失的情況下，中文的理解能力是欠缺的，國內(nèi)研究機構(gòu)和人工智能企業(yè)都在去增補這些中文語料來提升中文能力。

與此同時，對理解中文的大語言模型及時加以客觀公正的評價，使其“越”來越強大，也成為了當務之急。因此，甲骨易推出“超越”MMCU數(shù)據(jù)集恰逢其時，通過綜合評估模型在多個學科上的知識廣度和深度，能夠幫助研究者更精準地找出模型的缺陷，并對模型的能力進行打分。

“把大模型當成一個真正的人類”

在分享過程中，來自甲骨易AI研究院的首席研究員Felix坦言，要評價這些大語言模型的基礎能力，實際上是一個非常難以解決的問題。甲骨易憑借多年數(shù)據(jù)服務行業(yè)探索的技術(shù)優(yōu)勢，率先推出的針對于中文預訓練大模型的大規(guī)模多任務評測數(shù)據(jù)集以及相應的評測方法，旨在衡量中文大模型在處理眾多任務上的準確度，主要覆蓋醫(yī)療、法律、心理學和教育四大領(lǐng)域，題目形式涵蓋單項選擇和多項的選擇題，共包含11900個問題。

甲骨易AI研究院 Felix發(fā)言.jpg

圖4：甲骨易AI研究院 Felix發(fā)言

“我們是把大模型當作一個真正的人類來看待，”Felix如是說，測試集之所以涉及語、數(shù)、物理、化學這些科目，因為人工智能必須像人類一樣，具備對于世界的基礎的認知；而醫(yī)療、法律、心理學專業(yè)領(lǐng)域則是將大模型視為專業(yè)人士進行考核。通過對多領(lǐng)域知識廣度與深度的測試，甲骨易AI研究院可以幫助技術(shù)研發(fā)人員發(fā)現(xiàn)大語言模型在哪些領(lǐng)域有缺陷，或者說可能在其整體上都有缺陷。

沙龍上，中國科學院大學網(wǎng)絡數(shù)據(jù)重點實驗室的咸寧先生則針對MMCU測試集的使用情況進行分享，解釋了測試數(shù)據(jù)集的分析原理，對幾大模型的測試成果進行了展示與客觀分析，并指出了超越MMCU測試數(shù)據(jù)集當下尚存在一些亟待解決的問題。

中國科學院大學網(wǎng)絡數(shù)據(jù)重點實驗室咸寧發(fā)言.jpg

圖5：中國科學院大學網(wǎng)絡數(shù)據(jù)重點實驗室咸寧發(fā)言

通過發(fā)布會召開前開展的大模型測試發(fā)現(xiàn)，在本應有明顯優(yōu)勢的語文科目中，國產(chǎn)大模型的表現(xiàn)卻差強人意。Felix指出，現(xiàn)在很多模型評估還是處于人工評估階段，甲骨易推出“超越”MMCU數(shù)據(jù)集的初衷是希望實現(xiàn)對大模型進行大規(guī)模的評估。當下的評測結(jié)果可能存在隨機誤差，但未來還將持續(xù)優(yōu)化評測方式并擴充評測領(lǐng)域。

攜手共建，未來可期

自ChatGPT的驚艷亮相，人類生活的方方面面已發(fā)生了巨變。大模型仍有許多難關(guān)亟待解決，借助超越MMCU評測數(shù)據(jù)集，一舉打破市面上所有的大語言模型只能基于英文數(shù)據(jù)集去進行測試的現(xiàn)狀，中文大語言模型將有望構(gòu)建起一個完善的評測的體系，通過發(fā)現(xiàn)提升大語言的缺陷提升大語言模型對于中文的理解能力，更好地服務于全球的中文用戶。

大模型實際應用與場景化落地沙龍現(xiàn)場.jpg

圖6：大模型實際應用與場景化落地沙龍現(xiàn)場

“大模型的訓練以及大規(guī)模評估需要大量算力。”甲骨易AI研究院最后表示，愿與業(yè)界更多機構(gòu)聯(lián)手，一道攜手推進大模型的發(fā)展，加速人工智能技術(shù)的產(chǎn)學研用進程。超越評測數(shù)據(jù)集的發(fā)布，只是起點，甲骨易還將大有可為。更多精彩，敬請期待甲骨易第三空間未來更多活動。

MMCU論文鏈接：https://arxiv.org/abs/2304.12986

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

國內(nèi)首個大模型評測數(shù)據(jù)集（MMCU）問世 加速完善國產(chǎn)AI產(chǎn)業(yè)圖譜

下一篇

國內(nèi)首個大模型評測數(shù)據(jù)集（MMCU）問世加速完善國產(chǎn)AI產(chǎn)業(yè)圖譜