123,123,123

美國(guó)時(shí)間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測(cè)結(jié)果顯示,零一萬物公司推出的最新千億參數(shù)模型——Yi-Large,在總榜上榮登世界模型第七名,也是入圍前十名的唯一中國(guó)國(guó)產(chǎn)模型。

LMSYS Chatboat Arena 盲測(cè)采用的是接近用戶體感的“聊天機(jī)器人競(jìng)技場(chǎng)”特殊測(cè)評(píng)模式,讓眾多大語言模型在評(píng)測(cè)平臺(tái)隨機(jī)進(jìn)行比試,通過眾籌真實(shí)用戶來進(jìn)行線上實(shí)時(shí)盲測(cè)和匿名投票。值得一提的是,為了進(jìn)一步提升Chatbot Arena查詢的整體質(zhì)量與可靠性,LMSYS積極推行了重復(fù)數(shù)據(jù)刪除機(jī)制,并成功發(fā)布了經(jīng)過冗余查詢清理后的榜單。

此次Chatbot Arena共有44款模型參賽,其中不乏業(yè)界翹楚的開源模型Llama3-70B,同時(shí)也匯聚了多家知名大廠精心打造的閉源模型。

根據(jù)最新公布的Elo評(píng)分來看,GPT-4o以卓越的1287分榮登榜首,展現(xiàn)出其強(qiáng)大的性能。緊隨其后的是GPT-4-Turbo、Gemini 1.5 Pro、Claude 3.0pus以及Yi-Large等模型,以大約1240分的評(píng)分穩(wěn)居第二梯隊(duì),表現(xiàn)出不俗的競(jìng)爭(zhēng)力。然而,位列其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet,其評(píng)分則出現(xiàn)顯著下滑,約至1200分左右。

此次排名中,前六位的模型分別歸屬于國(guó)際知名的科技巨頭OpenAI、Google以及Anthropic。特別值得驕傲的是,零一萬物以強(qiáng)大的實(shí)力位列全球第四大機(jī)構(gòu)。同時(shí),GPT-4、Gemini 1.5 Pro等模型均為擁有萬億級(jí)別超大參數(shù)規(guī)模的旗艦?zāi)Ｐ?而其他模型也均具備大幾千億參數(shù)級(jí)別的規(guī)模。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級(jí)的規(guī)模,在激烈的競(jìng)爭(zhēng)中脫穎而出,緊追前列的參數(shù)規(guī)模數(shù)倍的超大模型。

5月13日Yi-Large正式發(fā)布,一周左右便迅速攀升至世界排名第七的位置,與海外大廠的旗艦?zāi)Ｐ吞幱谕惶蓐?duì)。此外,在 LMSYS Chatbot Arena 截至5月21日的總榜上,阿里巴巴的Qwen-Max大模型以Elo分?jǐn)?shù)1186分位列第12名,智譜AI的GLM-4大模型則以Elo分?jǐn)?shù)1175分排名第15,同樣展現(xiàn)了中國(guó)科技企業(yè)在人工智能領(lǐng)域的強(qiáng)勁實(shí)力。

在當(dāng)前大模型融入商業(yè)應(yīng)用的過程中,需要通過具體應(yīng)用場(chǎng)景的嚴(yán)格考驗(yàn)來證明其價(jià)值和潛力。為了行業(yè)的健康發(fā)展,必須追求更為客觀、公正且權(quán)威的評(píng)估體系。Chatbot Arena這樣的評(píng)測(cè)平臺(tái),通過真實(shí)用戶反饋和盲測(cè)機(jī)制,確保評(píng)估的真實(shí)性和權(quán)威性。廠商應(yīng)積極參與權(quán)威評(píng)測(cè)平臺(tái),展示產(chǎn)品的競(jìng)爭(zhēng)力和優(yōu)勢(shì),這有助于提升品牌形象和市場(chǎng)地位,推動(dòng)技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化。反之,忽視實(shí)際應(yīng)用效果的廠商將難以在競(jìng)爭(zhēng)激烈的市場(chǎng)中立足。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

“最有用戶體感評(píng)測(cè)”出爐，零一萬物千億參數(shù)模型Yi-Large位于世界十強(qiáng)

“最有用戶體感評(píng)測(cè)”出爐，零一萬物千億參數(shù)模型Yi-Large位于世界十強(qiáng)