123,123,123

LMSYS盲測最新排名：零一萬物Yi-Large與GPT4o并列中文榜第一

人閱讀

2024-05-21 13:47:21

來源：TechWeb.com.cn
相關關鍵詞

5月21日消息，上周，一個名為“im-also-a-good-gpt2-chatbot”的神秘模型突然現(xiàn)身大模型競技場LMSYS Chatboat Arena，排名直接超過GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家國際大廠的當家基座模型。隨后OpenAI揭開“im-also-a-good-gpt2-chatbot”神秘面紗——正是GPT-4o的測試版本，OpenAI CEO Sam Altman也在Gpt-4o發(fā)布后親自轉帖引用 LMSYS arena 盲測擂臺的測試結果。

時隔一周，美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果最新更新的排名中，這次排名飛速上漲的模型是由中國大模型公司零一萬物提交的“Yi-Large” 千億參數(shù)閉源大模型。該結果來自至今積累超過 1170萬的全球用戶真實投票數(shù)。

全球榜

此次LMSYS Chatboat Arena共有44款模型參賽，在最新排名中，零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7，中國大模型中第一，已經(jīng)超過Llama-3-70B、Claude 3 Sonnet；其中文分榜更是與GPT4o 并列世界第一。

中文榜

值得一提的是，排名前6的模型分別歸屬于海外巨頭 OpenAI、Google、Anthropic，零一萬物位列全球第四機構，且GPT-4、Gemini 1.5 Pro等模型均為萬億級別超大參數(shù)規(guī)模的旗艦模型，其他模型也都在大幾千億參數(shù)級別。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級緊追其后。

零一萬物也由此成為了總榜上唯一一個自家模型進入排名前十的中國大模型企業(yè)。在總榜上，GPT系列占了前10的4個，以機構排序，零一萬物 01.AI 僅次于 OpenAI, Google, Anthropic之后，以開放金標準正式進擊國際頂級大模型企業(yè)陣營。

公開資料顯示，LMSYS Org （Large Model Systems Organization）是一個開放的研究組織，由加州大學伯克利分校的學生和教師、加州大學圣地亞哥分校、卡耐基梅隆大學合作創(chuàng)立。由LMSYS Org發(fā)布的Chatbot Arena憑借其新穎的“競技場”形式、測試團隊的嚴謹性，成為目前全球業(yè)界公認的基準標桿。

在形式上，Chatbot Arena首先將所有上傳評測的“參賽”模型隨機兩兩配對，以匿名模型的形式呈現(xiàn)在用戶面前。隨后號召真實用戶輸入自己的提示詞，在不知道模型型號名稱的前提下，由真實用戶對兩個模型產(chǎn)品的作答給出評價，用戶在結果下方做出投票四選一：A模型較佳、B模型較佳，兩者平手，或是兩者都不好。提交后，可進行下一輪PK。

通過眾籌真實用戶來進行線上實時盲測和匿名投票，Chatbot Arena一方面減少偏見的影響，另一方面也最大概率避免基于測試集進行刷榜的可能性，以此增加最終成績的客觀性。在收集真實用戶投票數(shù)據(jù)之后，LMSYS Chatbot Arena還使用Elo評分系統(tǒng)來量化模型的表現(xiàn)，進一步優(yōu)化評分機制，力求公平反應參與者的實力。

得益于“真實用戶盲測投票”這一機制，Chatbot Arena被稱為大模型業(yè)內最有用戶體感的評測。目前，Chatbot Arena已經(jīng)成為OpenAI、Anthropic、Google、Meta等國際大廠“龍爭虎斗”的當紅擂臺。（宜月）

（免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）