5月21日消息,上周,一個名為“im-also-a-good-gpt2-chatbot”的神秘模型突然現(xiàn)身大模型競技場LMSYS Chatboat Arena,排名直接超過GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家國際大廠的當家基座模型。隨后OpenAI揭開“im-also-a-good-gpt2-chatbot”神秘面紗——正是GPT-4o的測試版本,OpenAI CEO Sam Altman也在Gpt-4o發(fā)布后親自轉(zhuǎn)帖引用 LMSYS arena 盲測擂臺的測試結(jié)果。
時隔一周,美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結(jié)果最新更新的排名中,這次排名飛速上漲的模型是由中國大模型公司零一萬物提交的“Yi-Large” 千億參數(shù)閉源大模型。該結(jié)果來自至今積累超過 1170萬的全球用戶真實投票數(shù)。
全球榜
此次LMSYS Chatboat Arena共有44款模型參賽,在最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經(jīng)超過Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與GPT4o 并列世界第一。
中文榜
值得一提的是,排名前6的模型分別歸屬于海外巨頭 OpenAI、Google、Anthropic,零一萬物位列全球第四機構(gòu),且GPT-4、Gemini 1.5 Pro等模型均為萬億級別超大參數(shù)規(guī)模的旗艦模型,其他模型也都在大幾千億參數(shù)級別。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級緊追其后。
零一萬物也由此成為了總榜上唯一一個自家模型進入排名前十的中國大模型企業(yè)。在總榜上,GPT系列占了前10的4個,以機構(gòu)排序,零一萬物 01.AI 僅次于 OpenAI, Google, Anthropic之后,以開放金標準正式進擊國際頂級大模型企業(yè)陣營。
公開資料顯示,LMSYS Org (Large Model Systems Organization) 是一個開放的研究組織,由加州大學伯克利分校的學生和教師、加州大學圣地亞哥分校、卡耐基梅隆大學合作創(chuàng)立。由LMSYS Org發(fā)布的Chatbot Arena憑借其新穎的“競技場”形式、測試團隊的嚴謹性,成為目前全球業(yè)界公認的基準標桿。
在形式上,Chatbot Arena首先將所有上傳評測的“參賽”模型隨機兩兩配對,以匿名模型的形式呈現(xiàn)在用戶面前。隨后號召真實用戶輸入自己的提示詞,在不知道模型型號名稱的前提下,由真實用戶對兩個模型產(chǎn)品的作答給出評價,用戶在結(jié)果下方做出投票四選一:A模型較佳、B模型較佳,兩者平手,或是兩者都不好。提交后,可進行下一輪PK。
通過眾籌真實用戶來進行線上實時盲測和匿名投票,Chatbot Arena一方面減少偏見的影響,另一方面也最大概率避免基于測試集進行刷榜的可能性,以此增加最終成績的客觀性。在收集真實用戶投票數(shù)據(jù)之后,LMSYS Chatbot Arena還使用Elo評分系統(tǒng)來量化模型的表現(xiàn),進一步優(yōu)化評分機制,力求公平反應參與者的實力。
得益于“真實用戶盲測投票”這一機制,Chatbot Arena被稱為大模型業(yè)內(nèi)最有用戶體感的評測。目前,Chatbot Arena已經(jīng)成為OpenAI、Anthropic、Google、Meta等國際大廠“龍爭虎斗”的當紅擂臺。(宜月)
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 三星新款家用熱泵 EHS 熱泵熱水器亮相 CES:7 英寸大屏智能控制,AI 家居新體驗
- AI搜索暗面揭秘:ChatGPT誤導用戶,隱藏內(nèi)容成操縱新手段
- 周鴻祎談o3大模型:關(guān)于AGI 的定義,可能得改改了
- 阿里通義開源視覺模型驚艷業(yè)界:顛覆視覺推理,讓物理思考觸手可及
- 傳谷歌利用Anthropic Claude模型改進自家Gemini AI模型,合規(guī)惹爭議
- 消息稱重啟機器人團隊僅一個多月的OpenAI 在考慮開發(fā)人形機器人
- 谷歌使用新模型改進 AI,揭秘 Anthropic Claude:AI 進步的關(guān)鍵一步?
- "LG引領(lǐng)音頻潮流,美韓用戶率先體驗免費流媒體服務(wù)LG Radio+",顛覆聽覺新體驗
- 谷歌將為Chrome瀏覽器引入基于Gemini Live大模型打造的AI功能:Glic,讓瀏覽體驗更上一層樓
- 綠聯(lián)新款T620桌面充電站,多口充電不等待,49元打造便捷充電新體驗
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。