零一萬(wàn)物發(fā)布千億參數(shù)模型Yi-Large,多數(shù)評(píng)測(cè)指標(biāo)超越 GPT4、Claude3、Gemini 1.5

5月13日消息,繼上周推出2C 產(chǎn)品一站式 AI 工作站“萬(wàn)知”后,今天,在零一萬(wàn)物成立一周年之際,零一萬(wàn)物 CEO 李開復(fù)博士攜帶千億參數(shù) Yi-Large 閉源模型正式亮相,除此之外,零一萬(wàn)物將早先發(fā)布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級(jí)為 Yi-1.5 系列。

李開復(fù)表示,“萬(wàn)知”正是零一萬(wàn)物基于閉源模型 Yi-Large 所做出的 “模應(yīng)一體” 2C 生產(chǎn)力應(yīng)用。(萬(wàn)知更多內(nèi)容,可關(guān)注TechWeb此前報(bào)道:實(shí)測(cè)AI特助「萬(wàn)知」)

李開復(fù)介紹:“目前零一萬(wàn)物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強(qiáng)企業(yè)的大型戰(zhàn)略合作?!?/p>

同時(shí),零一萬(wàn)物賦能 2B 生態(tài)的 “API 開放平臺(tái)” 今日全球上線。首批面向國(guó)內(nèi)市場(chǎng)一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口。

此外,李開復(fù)還透露,零一萬(wàn)物已啟動(dòng)下一代 Yi-XLarge MoE 模型訓(xùn)練,將沖擊 GPT-5 的性能與創(chuàng)新性。

Yi-Large 中文能力位列國(guó)產(chǎn)大模型之首

零一萬(wàn)物正式發(fā)布千億參數(shù)規(guī)模的 Yi-Large,在第三方權(quán)威評(píng)測(cè)中,零一萬(wàn)物 Yi 模型在全球頭部大模型的中英文雙語(yǔ) PK 上表現(xiàn)出色。

最新出爐的斯坦福評(píng)測(cè)機(jī)構(gòu) AlpacaEval 2.0 經(jīng)官方認(rèn)證的模型排行榜上,Yi-Large 模型的英語(yǔ)能力主要指標(biāo) LC Win Rate(控制回復(fù)的長(zhǎng)度) 排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前國(guó)內(nèi)模型中僅有 Yi 和 Qwen 曾經(jīng)登上此榜單的前 20。


斯坦福 AlpacaEval 2.0 Verified 認(rèn)證模型類別,英語(yǔ)能力評(píng)測(cè)(2024年5月12日)

在中文能力方面,SuperCLUE 更新的四月基準(zhǔn)表現(xiàn)中,Yi-Large 也位列國(guó)產(chǎn)大模型之首,Yi-Large 的綜合中英雙語(yǔ)能力皆展現(xiàn)了卓越的性能,可謂正式晉升全球大模型的“極品”。

在更全面的大模型綜合能力評(píng)測(cè)中,Yi-Large 多數(shù)指標(biāo)超越 GPT4、Claude3、Google Gemini 1.5 等同級(jí)模型,達(dá)到首位。在通用能力、代碼生成、數(shù)學(xué)推理、指令遵循方面都取得了優(yōu)于全球領(lǐng)跑者的成績(jī),穩(wěn)穩(wěn)躋身世界范圍內(nèi)的第一梯隊(duì)。

隨著各家大模型能力進(jìn)入到力求對(duì)標(biāo)GPT4的新階段,大模型評(píng)測(cè)的重點(diǎn)也開始由簡(jiǎn)單的通用能力轉(zhuǎn)向數(shù)學(xué)、代碼等復(fù)雜推理能力。在針對(duì)代碼生成能力的 HumanEval、針對(duì)數(shù)學(xué)推理能力的 GSM-8K和 MATH、以及針對(duì)領(lǐng)域?qū)<夷芰Φ腉PQA等評(píng)測(cè)集上,Yi-Large也取得了具有絕對(duì)優(yōu)勢(shì)的成績(jī)。


國(guó)際中英文評(píng)測(cè)數(shù)據(jù)集(2024年5月12日)

值得注意的是,上述評(píng)測(cè)均是在零樣本(0-shot)或少樣本(4-shot/5-shot/8-shot)的前提下進(jìn)行。在零樣本或少樣本的情況下,模型必須依賴于其在大量數(shù)據(jù)上訓(xùn)練時(shí)獲得的知識(shí)和推理能力,而不是簡(jiǎn)單地記憶訓(xùn)練數(shù)據(jù)。這最大程度上避免了刷分的可能性,能更加客觀真實(shí)地考驗(yàn)?zāi)P偷纳顚哟卫斫夂屯评砟芰Α?/p>

此外,從行業(yè)落地的角度來(lái)看,理解人類指令、對(duì)齊人類偏好已經(jīng)成為大模型不可或缺的能力,指令遵循(Instruction Following)相關(guān)評(píng)測(cè)也越發(fā)受到全球大模型企業(yè)重視。斯坦福開源評(píng)測(cè)項(xiàng)目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評(píng)測(cè)集,AlignBench 則是由清華大學(xué)的團(tuán)隊(duì)推出的中文對(duì)齊評(píng)測(cè)基準(zhǔn)。在中外權(quán)威指令遵循評(píng)測(cè)集中,Yi-Large 的表現(xiàn)均優(yōu)于國(guó)際前五大模型。

發(fā)布會(huì)上,李開復(fù)還宣布,零一萬(wàn)物已啟動(dòng)下一代 Yi-XLarge MoE 模型訓(xùn)練,將沖擊 GPT-5 的性能與創(chuàng)新性。從 MMLU、GPQA、HumanEval、MATH 等權(quán)威評(píng)測(cè)集中,仍在初期訓(xùn)練中的 Yi-XLarge MoE 已經(jīng)與 Claude-3-Opus、GPT4-0409 等國(guó)際廠商的最新旗艦?zāi)P突ビ袆儇?fù),訓(xùn)練完成后的性能令人期待。


Yi-XLarge 初期訓(xùn)練中評(píng)測(cè)(2024年5月12日)

Yi-1.5 開源全面升級(jí)

同時(shí),零一萬(wàn)物Yi系列開源模型也迎來(lái)全面升級(jí),Yi-1.5 分為 34B、9B、6B 三個(gè)版本,且提供了 Yi-1.5-Chat 微調(diào)模型可供開發(fā)者選擇。從評(píng)測(cè)數(shù)據(jù)來(lái)看,Yi-1.5 系列延續(xù)了 Yi 系列開源模型的出色表現(xiàn),數(shù)學(xué)邏輯、代碼能力全面增強(qiáng)的同時(shí),語(yǔ)言能力方面也保持了原先的高水準(zhǔn)。開源地址:Hugginf Face https://huggingface.co/01-ai 及魔搭社區(qū) https://www.modelscope.cn/organization/01ai。

經(jīng)過(guò)微調(diào)后的 Yi-1.5-6B/9B/34B-Chat 在數(shù)學(xué)推理、代碼能力、指令遵循等方面更上一層樓。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數(shù)學(xué)能力評(píng)測(cè)集、HumanEval 和 MBPP 等代碼能力評(píng)測(cè)集上的表現(xiàn)遠(yuǎn)同參數(shù)量級(jí)模型,也優(yōu)于近期發(fā)布的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數(shù)量級(jí)模型中也處于領(lǐng)先位置。

Yi-1.5-34B-Chat 在數(shù)學(xué)能力同樣保持著大幅領(lǐng)先,代碼能力與超大參數(shù)量級(jí)的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多個(gè)權(quán)威評(píng)測(cè)集上完全超越了 Mixtral-8x22B-Instruct-v0.1。

去年零一萬(wàn)物選擇以開源首發(fā) Yi 系列模型,其優(yōu)異的性能受到國(guó)際開發(fā)者的高度認(rèn)可。Yi 開源版本2023年11月上線首月,便占據(jù)開源社區(qū)近5成熱門模型排行,發(fā)布一個(gè)月后 Yi-34B 被 Nvidia 大模型 Playground 收錄,成為國(guó)內(nèi)唯一獲選模型,也建立了 Yi 模型面向國(guó)際的科技品牌信任度。

以開源模型構(gòu)建生態(tài),以閉源模型展開 AI-First 探索,開源閉源雙軌模型策略使得零一萬(wàn)物構(gòu)建起了生態(tài)體系。開源模型服務(wù)于全球的科研院校、學(xué)生、開發(fā)者、創(chuàng)業(yè)者人群,推動(dòng)百花齊放的應(yīng)用滋長(zhǎng);API 開放平臺(tái)提供企業(yè)商用,協(xié)助企業(yè)實(shí)踐 AI 2.0 的智能化轉(zhuǎn)型。同時(shí),零一萬(wàn)物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強(qiáng)企業(yè)的大型戰(zhàn)略合作。

Yi 大模型 API 開放平臺(tái)全球首發(fā)

全球開發(fā)者們對(duì)開源模型的品牌認(rèn)可,成為零一萬(wàn)物 API 服務(wù)的強(qiáng)有力支撐。今天,零一萬(wàn)物宣布面向國(guó)內(nèi)市場(chǎng)一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保證客戶能夠在不同場(chǎng)景下都能找到最佳性能、最具性價(jià)比的方案,Yi API Platform 英文站同步對(duì)全球開發(fā)者開放試用申請(qǐng)。

其中,千億參數(shù)規(guī)模的 Yi-Large API 具備超強(qiáng)文本生成及推理性能,適用于復(fù)雜推理、預(yù)測(cè),深度內(nèi)容創(chuàng)作等場(chǎng)景;Yi-Large-Turbo API 則根據(jù)性能和推理速度、成本,進(jìn)行了平衡性高精度調(diào)優(yōu),適用于全場(chǎng)景、高品質(zhì)的推理及文本生成等場(chǎng)景。

Yi-Medium API 優(yōu)勢(shì)在于指令遵循能力,適用于常規(guī)場(chǎng)景下的聊天、對(duì)話、翻譯等場(chǎng)景;如果需要超長(zhǎng)內(nèi)容文檔相關(guān)應(yīng)用,也可以選用 Yi-Medium-200K API,一次性解讀20萬(wàn)字不在話下;Yi-Vision API 具備高性能圖片理解、分析能力,可服務(wù)基于圖片的聊天、分析等場(chǎng)景;Yi-Spark API 則聚焦輕量化極速響應(yīng),適用于輕量化數(shù)學(xué)分析、代碼生成、文本聊天等場(chǎng)景。

李開復(fù)強(qiáng)調(diào),在中國(guó)大模型進(jìn)入第二年之際,國(guó)內(nèi)大模型賽道的競(jìng)跑從狂奔到長(zhǎng)跑,終局發(fā)展將取決于各個(gè)選手如何有效達(dá)到 “TC-PMF”(Product-Market-Technology-Cost Fit,技術(shù)成本 X 產(chǎn)品市場(chǎng)契合度)。大模型從訓(xùn)練到服務(wù)都很昂貴,算力緊缺是賽道的集體挑戰(zhàn),行業(yè)應(yīng)當(dāng)共同避免陷入不理性的 ofo 式流血燒錢打法,讓大模型能夠用健康良性的 ROI 蓄能長(zhǎng)跑,奔赴屬于中國(guó)的 AI 2.0 變革。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-13
零一萬(wàn)物發(fā)布千億參數(shù)模型Yi-Large,多數(shù)評(píng)測(cè)指標(biāo)超越 GPT4、Claude3、Gemini 1.5
5月13日消息,繼上周推出2C 產(chǎn)品一站式 AI 工作站“萬(wàn)知”后,今天,在零一萬(wàn)物成立一周年之際,零一萬(wàn)物 CEO 李開復(fù)博士攜帶千億參數(shù) Yi-Large 閉源模型正式亮相,除此之外,零一萬(wàn)物將早先發(fā)布的 Yi-34B

長(zhǎng)按掃碼 閱讀全文