123,123,123

7月25日消息，中文通用大模型綜合性基準(zhǔn)SuperClue發(fā)布了最新中文大語(yǔ)言模型排行榜。榜單結(jié)果顯示，百度文心一言總分超GPT-3.5-Turbo，領(lǐng)跑?chē)?guó)內(nèi)大模型。

SuperCLUE-Opt評(píng)測(cè)基準(zhǔn)是SuperCLUE綜合性三大基準(zhǔn)之一，每期有3700+道客觀題（選擇題），由基礎(chǔ)能力（10個(gè)子任務(wù)）、中文特性能力（10個(gè)子任務(wù)）、學(xué)術(shù)專(zhuān)業(yè)能力（50+子任務(wù)）組成，用于考察大模型在70余個(gè)任務(wù)上的綜合表現(xiàn)。

此次SuperCLUE從基礎(chǔ)能力、專(zhuān)業(yè)能力、中文特性能力三個(gè)維度70余項(xiàng)子能力，選取國(guó)內(nèi)外20個(gè)有代表性的可用大模型進(jìn)行測(cè)評(píng)，兼具綜合能力考量與中文特定任務(wù)理解積累的考察，并通過(guò)自動(dòng)化測(cè)評(píng)以相對(duì)客觀形式進(jìn)行效果測(cè)評(píng)。在總分榜中，文心一言緊隨GPT-4，總分超GPT-3.5及國(guó)內(nèi)其他大模型，模型效果最佳。

從榜單結(jié)果可以看出，雖然國(guó)外GPT-4效果較領(lǐng)先，但國(guó)內(nèi)GPT模型也有不俗表現(xiàn)。在中文領(lǐng)域，國(guó)內(nèi)研發(fā)的大模型在部分維度表現(xiàn)突出，整體在逐步縮小與國(guó)際先進(jìn)模型的差距。整體來(lái)看，國(guó)內(nèi)大模型中百度文心一言表現(xiàn)最優(yōu)。文心一言v2.2.0版背后搭載的是文心大模型3.5，文心大模型自2019年3月發(fā)布1.0版后，現(xiàn)已升級(jí)到3.5版。新版本模型效果提升50%，訓(xùn)練速度提升2倍，推理速度提升30倍。

據(jù)了解，這次評(píng)榜的SuperClue是一個(gè)由國(guó)內(nèi)發(fā)起的大模型榜單，是中文領(lǐng)域權(quán)威測(cè)評(píng)社區(qū)。相較于國(guó)外的UC伯克利LLM排行榜和斯坦福排行榜AlpacaEval兩個(gè)流行榜單，多了一些國(guó)內(nèi)大模型，更加適合國(guó)內(nèi)用戶來(lái)橫向比較。作為針對(duì)中文可用的通用大模型測(cè)評(píng)標(biāo)準(zhǔn)，SuperCLUE使用多個(gè)維度能力對(duì)一系列國(guó)內(nèi)外代表性模型進(jìn)行測(cè)試，因其為封閉式問(wèn)題，對(duì)大模型來(lái)說(shuō)是“閉卷考試”，測(cè)評(píng)更難。

評(píng)測(cè)基準(zhǔn)中，基礎(chǔ)能力包括了常見(jiàn)的有代表性的模型能力，如語(yǔ)義理解、對(duì)話、邏輯推理、角色扮演、代碼、生成與創(chuàng)作等10項(xiàng)能力；專(zhuān)業(yè)能力包括了中學(xué)、大學(xué)與專(zhuān)業(yè)考試，涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力；中文特性能力包括了中文成語(yǔ)、詩(shī)歌、文學(xué)、字形等10項(xiàng)多種能力。值得一提的是，全球領(lǐng)先的IT市場(chǎng)研究和咨詢公司IDC最新發(fā)布《AI大模型技術(shù)能力評(píng)估報(bào)告，2023》顯示，百度文心大模型3.5拿下12項(xiàng)指標(biāo)的7個(gè)滿分，綜合評(píng)分第一，算法模型第一，行業(yè)覆蓋第一，其中也是算法模型維度的唯一一個(gè)滿分。

另?yè)?jù)近期多個(gè)公開(kāi)測(cè)評(píng)顯示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4的表現(xiàn)；綜合能力在評(píng)測(cè)中超過(guò)ChatGPT，遙遙領(lǐng)先于其他大模型，穩(wěn)居國(guó)內(nèi)第一。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

3728道題來(lái)考20個(gè)大模型，百度文心3.5再拿國(guó)內(nèi)第一！

下一篇