直追GPT-4 零一萬(wàn)物Yi-34B-Chat躋身全球權(quán)威大模型榜單前列

12月11日消息,繼11月初零一萬(wàn)物發(fā)布Yi-34B 基座模型后,Yi-34B-Chat 微調(diào)模型在11月24日開(kāi)源上線。開(kāi)源兩周,Yi-34B-Chat即獲得全球開(kāi)發(fā)者廣泛關(guān)注,并在全球多個(gè)英文、中文大模型權(quán)威榜單名列前茅。

Yi模型開(kāi)源首月,在Hugging Face社區(qū)下載量為16.8萬(wàn),魔搭社區(qū)下載量1.2萬(wàn)。在GitHub 獲得超過(guò)4900個(gè)Stars。

據(jù)介紹,截至目前,已有多家知名公司和機(jī)構(gòu)推出了基于Yi模型基座的微調(diào)模型,比如獵豹旗下的獵戶星空公司推出的OrionStar-Yi-34B-Chat模型,南方科技大學(xué)和粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(簡(jiǎn)稱IDEA研究院)認(rèn)知計(jì)算與自然語(yǔ)言研究中心(簡(jiǎn)稱CCNL中心)聯(lián)合發(fā)布的SUS-Chat-34B;AMD和Hugging Face合作的GPU加速大模型的實(shí)驗(yàn)中,也選擇了Yi-6B作為范例項(xiàng)目。

零一萬(wàn)物宣布,邀請(qǐng)全球開(kāi)發(fā)者共同測(cè)試使用 Yi-34B-Chat 模型能力,一起搭建 Yi 開(kāi)源模型的應(yīng)用生態(tài)系。

Yi-34B-Chat霸榜中英文大模型榜單

斯坦福大學(xué)研發(fā)的大語(yǔ)言模型評(píng)測(cè) AlpacaEval Leaderboard 中,Yi-34B-Chat以94.08%的勝率,超越LLaMA2 Chat 70B、Claude 2、ChatGPT,成為世界范圍內(nèi)僅次于GPT-4 英語(yǔ)能力的大語(yǔ)言模型。

AlpacaEval Leaderboard排行榜(發(fā)布于2023年12月7日)

在加州大學(xué)伯克利分校主導(dǎo)的LMSYS ORG排行榜中,Yi-34B-Chat也以1102的Elo評(píng)分,晉升最新開(kāi)源SOTA開(kāi)源模型之列,性能表現(xiàn)追平GPT-3.5。伯克利LMSYS ORG排行榜采用了一個(gè)最為接近用戶體感的 “聊天機(jī)器人競(jìng)技場(chǎng)” 特殊測(cè)評(píng)模式,讓眾多大語(yǔ)言模型在評(píng)測(cè)平臺(tái)隨機(jī)進(jìn)行一對(duì)一 battle,通過(guò)眾籌真實(shí)用戶來(lái)進(jìn)行線上實(shí)時(shí)盲測(cè)和匿名投票。

LMSYS ORG 在12月8日官宣的最新的榜單中,經(jīng)25000的真實(shí)用戶投票總數(shù)計(jì)算了20個(gè)大模型的總得分。在開(kāi)源模型中,Yi-34B-Chat成為當(dāng)之無(wú)愧的“最強(qiáng)王者” 之一(英語(yǔ)能力),榜單對(duì)評(píng)價(jià):“Yi-34B-Chat 和 Tulu-2-DPO-70B 在開(kāi)源界的進(jìn)擊表現(xiàn)已經(jīng)追平 GPT-3.5”。

LMSYS ORG榜單(發(fā)布于2023年12月8日)

中文能力方面,Yi-34B-Chat 微調(diào)模型同樣不遑多讓。SuperCLUE是一項(xiàng)針對(duì)中文能力的排行榜,從基礎(chǔ)能力、專業(yè)能力和中文特性能力三個(gè)不同的維度,評(píng)估模型的能力。根據(jù)11月底發(fā)布的《SuperCLUE中文大模型基準(zhǔn)評(píng)測(cè)報(bào)告 2023》,11月下旬首度發(fā)布的 Yi-34B Chat,迅速晉升到和諸多國(guó)產(chǎn)優(yōu)秀大模型齊平的 “卓越領(lǐng)導(dǎo)者” 象限,在多項(xiàng)基準(zhǔn)評(píng)測(cè)中的 “SuperCLUE 大模型對(duì)戰(zhàn)勝率” 這項(xiàng)關(guān)鍵指標(biāo)上,Yi-34B-Chat 取得31.82%的勝率,僅次于GPT4-Turbo。

中文SuperCLUE排行榜(發(fā)布于2023年11月28日)

對(duì)廣大開(kāi)發(fā)社區(qū)來(lái)說(shuō)特別值得一提的是,Yi-34B-Chat 微調(diào)模型還為開(kāi)發(fā)者提供了 4bit/8bit 量化版模型。Yi-34B-Chat 4bit 量化版模型可以直接在消費(fèi)級(jí)顯卡(如RTX3090)上使用,訓(xùn)練成本友好。

實(shí)力源于Yi 強(qiáng)基座+創(chuàng)新對(duì)齊策略

今年11月6日,零一萬(wàn)物正式開(kāi)源發(fā)布首款預(yù)訓(xùn)練大模型 Yi-34B。作為基座模型,Yi-34B能力表現(xiàn)突出,在Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜(2023年11月5日)、C-Eval中文權(quán)威榜單排行榜中Yi-34B均高居榜首;在MMLU、BBH等評(píng)測(cè)集上,Yi-34B在通用能力、知識(shí)推理、閱讀理解等多項(xiàng)指標(biāo)評(píng)比中全部勝出。

據(jù)零一萬(wàn)物介紹,除了 Yi 系列強(qiáng)基座的貢獻(xiàn)以外,Yi-34B-Chat 模型的效果還得益于其人工智能對(duì)齊(AI Alignment)團(tuán)隊(duì)采用了一系列創(chuàng)新對(duì)齊策略。通過(guò)精心設(shè)計(jì)的指令微調(diào)流程,不僅強(qiáng)化了模型在理解和適應(yīng)人類需求方面的能力,還使得模型與人類價(jià)值觀對(duì)齊,包括幫助性(Helpful),可靠性(Honest),無(wú)害性(Harmless)等。

在強(qiáng)基座設(shè)定下,該團(tuán)隊(duì)采用了一種輕量化指令微調(diào)方案,該方案涵蓋了單項(xiàng)能力提升和多項(xiàng)能力融合兩個(gè)階段。

其中,單項(xiàng)能力包括通用指令跟隨、創(chuàng)意內(nèi)容生成、數(shù)學(xué)、推理、編程、泛COT、對(duì)話交互等。通過(guò)大量的消融實(shí)驗(yàn),針對(duì)模型單能力構(gòu)建和多能力融合總結(jié)了獨(dú)家認(rèn)知經(jīng)驗(yàn)。

在數(shù)據(jù)的量和質(zhì)方面,一方面,團(tuán)隊(duì)在強(qiáng)基座模型上,實(shí)現(xiàn)僅需要少量數(shù)據(jù)(幾條到幾百條),就能激發(fā)模型特定單項(xiàng)能力;另一方面,數(shù)據(jù)質(zhì)量比數(shù)量重要,少量高質(zhì)量數(shù)據(jù)比大量低質(zhì)量數(shù)據(jù)更好。通過(guò)關(guān)注超出模型能力的“低質(zhì)量”數(shù)據(jù),減少了模型“幻覺(jué)”。

在指令多樣性與難度方面,團(tuán)隊(duì)通過(guò)在各能力項(xiàng)下構(gòu)建任務(wù)體系,實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)中的指令均衡分布,大幅提升了模型泛化性。通過(guò)復(fù)合指令構(gòu)造和指令難度進(jìn)化,不僅提升了模型效果,也顯著降低了對(duì)數(shù)據(jù)量的需求。

在風(fēng)格一致性方面,團(tuán)隊(duì)發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)的風(fēng)格會(huì)影響模型收斂速度和能力上限的逼近程度,因此統(tǒng)一了回復(fù)風(fēng)格,比如重點(diǎn)設(shè)計(jì)了CoT的回復(fù)風(fēng)格,實(shí)現(xiàn)在輕量SFT情況下,避免了風(fēng)格不一致加劇模型的“記憶”現(xiàn)象。

在多能力融合階段,團(tuán)隊(duì)采用網(wǎng)格搜索的方法來(lái)決定數(shù)據(jù)配比和超參數(shù)的設(shè)置,通過(guò)基準(zhǔn)測(cè)試和自建評(píng)測(cè)集的結(jié)果來(lái)指導(dǎo)搜索過(guò)程,成功實(shí)現(xiàn)模型的多能力融合。

“風(fēng)波”過(guò)后 Eric Hartford已成Yi-34B的忠實(shí)擁躉

事實(shí)上,Yi-34B開(kāi)源發(fā)布后,就獲得了極大關(guān)注,甚至還鬧出一場(chǎng)“風(fēng)波”。

在11月初Yi-34B開(kāi)源后,Hugging Face社區(qū)開(kāi)發(fā)者Eric Hartford敏銳發(fā)現(xiàn)了模型存在的一個(gè)小問(wèn)題。

于是,Eric Hartford在郵件中寫道,“感謝你們提供了一個(gè)優(yōu)秀的模型。Yi模型使用了與LLaMA模型完全相同的架構(gòu),只是將兩個(gè)張量改了名字。由于圍繞LLaMA架構(gòu)有很多投資和工具,保持張量名稱的一致性是有價(jià)值的。”Eric建議,在Yi被廣泛傳播前,及時(shí)恢復(fù)張量名稱。

零一萬(wàn)物意識(shí)到命名問(wèn)題的疏忽對(duì)開(kāi)發(fā)者造成的不便,跟Eric和其他開(kāi)發(fā)者提出說(shuō)明,表達(dá)誠(chéng)摯的歉意,并很快便在各開(kāi)源平臺(tái)重新提交模型及代碼,完成了開(kāi)源社區(qū)的版本更新。

然而Eric的這個(gè)建議,在國(guó)內(nèi)被曲解、誤讀,進(jìn)而引發(fā)了輿論關(guān)于Yi模型“抄襲”LLaMA的質(zhì)疑。

事實(shí)上,一個(gè)模型核心技術(shù)護(hù)城河是在架構(gòu)之上,通過(guò)數(shù)據(jù)訓(xùn)練獲得的參數(shù)和代碼。

零一萬(wàn)物團(tuán)隊(duì)在回應(yīng)Yi模型“抄襲”LLaMA的質(zhì)疑時(shí)就明確表示,在沿用了開(kāi)源社區(qū)普遍使用的LLaMA 架構(gòu)之上,零一萬(wàn)物團(tuán)隊(duì)從零開(kāi)始,用高質(zhì)量的數(shù)據(jù)集、自研訓(xùn)練科學(xué)和AI Infra打造了 Yi-34B 在內(nèi)的系列模型。為了執(zhí)行對(duì)比實(shí)驗(yàn)的需要,對(duì)部分推理參數(shù)進(jìn)行了重新命名。原始出發(fā)點(diǎn)是為了充分測(cè)試模型,而非刻意隱瞞來(lái)源。

身處這場(chǎng)輿論風(fēng)暴的中心,Eric自發(fā)且不遺余力為Yi辯護(hù)。

他在X(twitter)上寫道:“他們沒(méi)有在任何事情上撒謊。所有的模型都是在相互借鑒架構(gòu)。架構(gòu)是學(xué)術(shù)研究的產(chǎn)物,已經(jīng)發(fā)表在論文中,任何人都可以自由使用,這絲毫不減損Yi團(tuán)隊(duì)的成就。他們從零開(kāi)始使用自己創(chuàng)建的數(shù)據(jù)集訓(xùn)練Yi,對(duì)開(kāi)源領(lǐng)域的貢獻(xiàn)是值得贊揚(yáng)的?!?br>緊接著,他又說(shuō),“使用Llama架構(gòu)沒(méi)有任何問(wèn)題。訓(xùn)練才是關(guān)鍵。Yi給了我們目前可獲得的最佳模型,沒(méi)有任何可抱怨的。”

現(xiàn)在,Eric已經(jīng)成為Yi-34B的忠實(shí)擁躉,會(huì)使用Yi-34b-200k數(shù)據(jù)集訓(xùn)練其他的模型產(chǎn)品,并感嘆絲滑般的訓(xùn)練體驗(yàn)。

另外,魔搭swift框架技術(shù)開(kāi)發(fā)人員黃錦濤認(rèn)為,因?yàn)檠赜昧薒lama架構(gòu),Yi-34B的生態(tài)對(duì)開(kāi)發(fā)者非常友好,部署方便輕盈,而且Llama生態(tài)中有很多加速技術(shù)工具,比如對(duì)推理加速的支持,均顯著降低了成本。Yi還為開(kāi)發(fā)者提供了4bit/8bit 量化版模型。Yi-34B-Chat 4bit 量化版模型可以直接在消費(fèi)級(jí)顯卡(如3090、4090)上使用,這就大大降低了基礎(chǔ)模型運(yùn)行的算力需求。對(duì)很多沒(méi)有高效能顯卡的個(gè)人開(kāi)發(fā)者來(lái)說(shuō),顯著降低了使用門檻。

Yi-34B-Chat中文理解能力演示

最后,看看Yi-34B-Chat 模型實(shí)力在不同的對(duì)話場(chǎng)景中實(shí)力如何,直接上幾個(gè)直觀的問(wèn)題演示。

首先,來(lái)一段繞口令式的【中文理解】:小王給領(lǐng)導(dǎo)送了一份禮物后。領(lǐng)導(dǎo)說(shuō):“小王,你這是什么意思?”小王:“一點(diǎn)心意,意思意思?!鳖I(lǐng)導(dǎo):“你這就不夠意思了?!毙⊥酰骸靶∫馑迹∫馑??!鳖I(lǐng)導(dǎo):“小王,你這人真有意思?!毙⊥酰骸耙矝](méi)什么別的意思?!鳖I(lǐng)導(dǎo):“那我多不好意思?!毙⊥酰骸笆俏也缓靡馑?。”這個(gè)意思到底是什么意思?

Yi-34B-Chat 給出了準(zhǔn)確回復(fù)。

在看看Yi-34B-Chat生成文案的能力?!敖o我生成一個(gè)小紅書文案,給大家安利一只豆沙色的口紅?!?/p>

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2023-12-11
直追GPT-4 零一萬(wàn)物Yi-34B-Chat躋身全球權(quán)威大模型榜單前列
12月11日消息,繼11月初零一萬(wàn)物發(fā)布Yi-34B 基座模型后,Yi-34B-Chat 微調(diào)模型在11月24日開(kāi)源上線。

長(zhǎng)按掃碼 閱讀全文