零一萬物發(fā)布千億參數模型Yi-Large,多數評測指標超越 GPT4、Claude3、Gemini 1.5

5月13日消息,繼上周推出2C 產品一站式 AI 工作站“萬知”后,今天,在零一萬物成立一周年之際,零一萬物 CEO 李開復博士攜帶千億參數 Yi-Large 閉源模型正式亮相,除此之外,零一萬物將早先發(fā)布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級為 Yi-1.5 系列。

李開復表示,“萬知”正是零一萬物基于閉源模型 Yi-Large 所做出的 “模應一體” 2C 生產力應用。(萬知更多內容,可關注TechWeb此前報道:實測AI特助「萬知」)

李開復介紹:“目前零一萬物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強企業(yè)的大型戰(zhàn)略合作?!?/p>

同時,零一萬物賦能 2B 生態(tài)的 “API 開放平臺” 今日全球上線。首批面向國內市場一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口。

此外,李開復還透露,零一萬物已啟動下一代 Yi-XLarge MoE 模型訓練,將沖擊 GPT-5 的性能與創(chuàng)新性。

Yi-Large 中文能力位列國產大模型之首

零一萬物正式發(fā)布千億參數規(guī)模的 Yi-Large,在第三方權威評測中,零一萬物 Yi 模型在全球頭部大模型的中英文雙語 PK 上表現出色。

最新出爐的斯坦福評測機構 AlpacaEval 2.0 經官方認證的模型排行榜上,Yi-Large 模型的英語能力主要指標 LC Win Rate(控制回復的長度) 排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前國內模型中僅有 Yi 和 Qwen 曾經登上此榜單的前 20。


斯坦福 AlpacaEval 2.0 Verified 認證模型類別,英語能力評測(2024年5月12日)

在中文能力方面,SuperCLUE 更新的四月基準表現中,Yi-Large 也位列國產大模型之首,Yi-Large 的綜合中英雙語能力皆展現了卓越的性能,可謂正式晉升全球大模型的“極品”。

在更全面的大模型綜合能力評測中,Yi-Large 多數指標超越 GPT4、Claude3、Google Gemini 1.5 等同級模型,達到首位。在通用能力、代碼生成、數學推理、指令遵循方面都取得了優(yōu)于全球領跑者的成績,穩(wěn)穩(wěn)躋身世界范圍內的第一梯隊。

隨著各家大模型能力進入到力求對標GPT4的新階段,大模型評測的重點也開始由簡單的通用能力轉向數學、代碼等復雜推理能力。在針對代碼生成能力的 HumanEval、針對數學推理能力的 GSM-8K和 MATH、以及針對領域專家能力的GPQA等評測集上,Yi-Large也取得了具有絕對優(yōu)勢的成績。


國際中英文評測數據集(2024年5月12日)

值得注意的是,上述評測均是在零樣本(0-shot)或少樣本(4-shot/5-shot/8-shot)的前提下進行。在零樣本或少樣本的情況下,模型必須依賴于其在大量數據上訓練時獲得的知識和推理能力,而不是簡單地記憶訓練數據。這最大程度上避免了刷分的可能性,能更加客觀真實地考驗模型的深層次理解和推理能力。

此外,從行業(yè)落地的角度來看,理解人類指令、對齊人類偏好已經成為大模型不可或缺的能力,指令遵循(Instruction Following)相關評測也越發(fā)受到全球大模型企業(yè)重視。斯坦福開源評測項目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評測集,AlignBench 則是由清華大學的團隊推出的中文對齊評測基準。在中外權威指令遵循評測集中,Yi-Large 的表現均優(yōu)于國際前五大模型。

發(fā)布會上,李開復還宣布,零一萬物已啟動下一代 Yi-XLarge MoE 模型訓練,將沖擊 GPT-5 的性能與創(chuàng)新性。從 MMLU、GPQA、HumanEval、MATH 等權威評測集中,仍在初期訓練中的 Yi-XLarge MoE 已經與 Claude-3-Opus、GPT4-0409 等國際廠商的最新旗艦模型互有勝負,訓練完成后的性能令人期待。


Yi-XLarge 初期訓練中評測(2024年5月12日)

Yi-1.5 開源全面升級

同時,零一萬物Yi系列開源模型也迎來全面升級,Yi-1.5 分為 34B、9B、6B 三個版本,且提供了 Yi-1.5-Chat 微調模型可供開發(fā)者選擇。從評測數據來看,Yi-1.5 系列延續(xù)了 Yi 系列開源模型的出色表現,數學邏輯、代碼能力全面增強的同時,語言能力方面也保持了原先的高水準。開源地址:Hugginf Face https://huggingface.co/01-ai 及魔搭社區(qū) https://www.modelscope.cn/organization/01ai。

經過微調后的 Yi-1.5-6B/9B/34B-Chat 在數學推理、代碼能力、指令遵循等方面更上一層樓。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數學能力評測集、HumanEval 和 MBPP 等代碼能力評測集上的表現遠同參數量級模型,也優(yōu)于近期發(fā)布的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數量級模型中也處于領先位置。

Yi-1.5-34B-Chat 在數學能力同樣保持著大幅領先,代碼能力與超大參數量級的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多個權威評測集上完全超越了 Mixtral-8x22B-Instruct-v0.1。

去年零一萬物選擇以開源首發(fā) Yi 系列模型,其優(yōu)異的性能受到國際開發(fā)者的高度認可。Yi 開源版本2023年11月上線首月,便占據開源社區(qū)近5成熱門模型排行,發(fā)布一個月后 Yi-34B 被 Nvidia 大模型 Playground 收錄,成為國內唯一獲選模型,也建立了 Yi 模型面向國際的科技品牌信任度。

以開源模型構建生態(tài),以閉源模型展開 AI-First 探索,開源閉源雙軌模型策略使得零一萬物構建起了生態(tài)體系。開源模型服務于全球的科研院校、學生、開發(fā)者、創(chuàng)業(yè)者人群,推動百花齊放的應用滋長;API 開放平臺提供企業(yè)商用,協助企業(yè)實踐 AI 2.0 的智能化轉型。同時,零一萬物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強企業(yè)的大型戰(zhàn)略合作。

Yi 大模型 API 開放平臺全球首發(fā)

全球開發(fā)者們對開源模型的品牌認可,成為零一萬物 API 服務的強有力支撐。今天,零一萬物宣布面向國內市場一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保證客戶能夠在不同場景下都能找到最佳性能、最具性價比的方案,Yi API Platform 英文站同步對全球開發(fā)者開放試用申請。

其中,千億參數規(guī)模的 Yi-Large API 具備超強文本生成及推理性能,適用于復雜推理、預測,深度內容創(chuàng)作等場景;Yi-Large-Turbo API 則根據性能和推理速度、成本,進行了平衡性高精度調優(yōu),適用于全場景、高品質的推理及文本生成等場景。

Yi-Medium API 優(yōu)勢在于指令遵循能力,適用于常規(guī)場景下的聊天、對話、翻譯等場景;如果需要超長內容文檔相關應用,也可以選用 Yi-Medium-200K API,一次性解讀20萬字不在話下;Yi-Vision API 具備高性能圖片理解、分析能力,可服務基于圖片的聊天、分析等場景;Yi-Spark API 則聚焦輕量化極速響應,適用于輕量化數學分析、代碼生成、文本聊天等場景。

李開復強調,在中國大模型進入第二年之際,國內大模型賽道的競跑從狂奔到長跑,終局發(fā)展將取決于各個選手如何有效達到 “TC-PMF”(Product-Market-Technology-Cost Fit,技術成本 X 產品市場契合度)。大模型從訓練到服務都很昂貴,算力緊缺是賽道的集體挑戰(zhàn),行業(yè)應當共同避免陷入不理性的 ofo 式流血燒錢打法,讓大模型能夠用健康良性的 ROI 蓄能長跑,奔赴屬于中國的 AI 2.0 變革。

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2024-05-13
零一萬物發(fā)布千億參數模型Yi-Large,多數評測指標超越 GPT4、Claude3、Gemini 1.5
5月13日消息,繼上周推出2C 產品一站式 AI 工作站“萬知”后,今天,在零一萬物成立一周年之際,零一萬物 CEO 李開復博士攜帶千億參數 Yi-Large 閉源模型正式亮相,除此之外,零一萬物將早先發(fā)布的 Yi-34B

長按掃碼 閱讀全文