美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結(jié)果顯示,零一萬物公司推出的最新千億參數(shù)模型——Yi-Large,在總榜上榮登世界模型第七名,也是入圍前十名的唯一中國國產(chǎn)模型。
LMSYS Chatboat Arena 盲測采用的是接近用戶體感的“聊天機(jī)器人競技場”特殊測評模式,讓眾多大語言模型在評測平臺隨機(jī)進(jìn)行比試,通過眾籌真實用戶來進(jìn)行線上實時盲測和匿名投票。值得一提的是,為了進(jìn)一步提升Chatbot Arena查詢的整體質(zhì)量與可靠性,LMSYS積極推行了重復(fù)數(shù)據(jù)刪除機(jī)制,并成功發(fā)布了經(jīng)過冗余查詢清理后的榜單。
此次Chatbot Arena共有44款模型參賽,其中不乏業(yè)界翹楚的開源模型Llama3-70B,同時也匯聚了多家知名大廠精心打造的閉源模型。
根據(jù)最新公布的Elo評分來看,GPT-4o以卓越的1287分榮登榜首,展現(xiàn)出其強(qiáng)大的性能。緊隨其后的是GPT-4-Turbo、Gemini 1.5 Pro、Claude 3.0pus以及Yi-Large等模型,以大約1240分的評分穩(wěn)居第二梯隊,表現(xiàn)出不俗的競爭力。然而,位列其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet,其評分則出現(xiàn)顯著下滑,約至1200分左右。
此次排名中,前六位的模型分別歸屬于國際知名的科技巨頭OpenAI、Google以及Anthropic。特別值得驕傲的是,零一萬物以強(qiáng)大的實力位列全球第四大機(jī)構(gòu)。同時,GPT-4、Gemini 1.5 Pro等模型均為擁有萬億級別超大參數(shù)規(guī)模的旗艦?zāi)P?而其他模型也均具備大幾千億參數(shù)級別的規(guī)模。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級的規(guī)模,在激烈的競爭中脫穎而出,緊追前列的參數(shù)規(guī)模數(shù)倍的超大模型。
5月13日Yi-Large正式發(fā)布,一周左右便迅速攀升至世界排名第七的位置,與海外大廠的旗艦?zāi)P吞幱谕惶蓐?。此?在 LMSYS Chatbot Arena 截至5月21日的總榜上,阿里巴巴的Qwen-Max大模型以Elo分?jǐn)?shù)1186分位列第12名,智譜AI的GLM-4大模型則以Elo分?jǐn)?shù)1175分排名第15,同樣展現(xiàn)了中國科技企業(yè)在人工智能領(lǐng)域的強(qiáng)勁實力。
在當(dāng)前大模型融入商業(yè)應(yīng)用的過程中,需要通過具體應(yīng)用場景的嚴(yán)格考驗來證明其價值和潛力。為了行業(yè)的健康發(fā)展,必須追求更為客觀、公正且權(quán)威的評估體系。Chatbot Arena這樣的評測平臺,通過真實用戶反饋和盲測機(jī)制,確保評估的真實性和權(quán)威性。廠商應(yīng)積極參與權(quán)威評測平臺,展示產(chǎn)品的競爭力和優(yōu)勢,這有助于提升品牌形象和市場地位,推動技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化。反之,忽視實際應(yīng)用效果的廠商將難以在競爭激烈的市場中立足。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )