MoE模型大火,源2.0-M32詮釋“三個(gè)臭皮匠,頂個(gè)諸葛亮”!

文 | 智能相對(duì)論

作者 | 陳泊丞

近半年來(lái),MoE混合專家大模型徹底是火了。

在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構(gòu)。而在國(guó)內(nèi),浪潮信息也剛剛發(fā)布了基于MoE架構(gòu)的“源2.0-M32”開(kāi)源大模型。

為什么MoE大模型備受矚目,并逐步成為AI行業(yè)的共識(shí)?

知名科學(xué)雜志《Nature》在今年發(fā)表了一篇關(guān)于大模型未來(lái)發(fā)展之路的文章,《In Al, is bigger always better?》(人工智能,越大型越好?)。爭(zhēng)議的出現(xiàn),意味著AI的發(fā)展方向出現(xiàn)了分歧。

如今,“大”不再是模型的唯一追求,綜合應(yīng)用需要關(guān)注模型本身的計(jì)算效率和算力開(kāi)銷兩大問(wèn)題成為新的行業(yè)焦點(diǎn)。

浪潮信息人工智能首席科學(xué)家吳韶華在與「智能相對(duì)論」交流時(shí)也強(qiáng)調(diào),事實(shí)上他們當(dāng)前做的,是在模型能力持續(xù)提升的情況下,盡可能降低它的算力開(kāi)銷。因?yàn)榻裉齑竽P捅旧砭褪怯蓛蓚€(gè)主要因素來(lái)決定的,一個(gè)是模型能力,一個(gè)是算力開(kāi)銷。

浪潮信息人工智能首席科學(xué)家吳韶華

因此,MoE大模型的盛行,實(shí)際上對(duì)應(yīng)的正是模型能力和算力開(kāi)銷兩大問(wèn)題的解決。這也是為什么眾多大模型廠商如OpenAI、谷歌、Mistral AI、浪潮信息等陸續(xù)基于MoE架構(gòu)升級(jí)自家大模型產(chǎn)品的原因。

MoE模型大火的背后,需要厘清三點(diǎn)認(rèn)知

一、解題思路的轉(zhuǎn)變:三個(gè)“臭皮匠”,頂個(gè)“諸葛亮”。

中國(guó)有句古語(yǔ):術(shù)業(yè)有專攻,正是MoE模型的最直接的工作設(shè)計(jì)思路,即把任務(wù)分門別類,交由不同的“專家”進(jìn)行解決。

如果說(shuō)稠密(Dense)模型是個(gè)“全才”模型,旨在培養(yǎng)一個(gè)精通各個(gè)領(lǐng)域、能解決多個(gè)問(wèn)題的“諸葛亮”,那么混合專家(MoE)模型則是個(gè)“專才”模式,側(cè)重于培養(yǎng)多個(gè)“臭皮匠”(即“專家”),配合著以更專業(yè)、更高效的團(tuán)隊(duì)模式解決各種問(wèn)題。

圖片來(lái)源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》

由此便不難理解為什么MoE模型會(huì)如此火爆。因?yàn)椋囵B(yǎng)一個(gè)“諸葛亮”所需要消耗的資源、成本都太高了,甚至慢慢地超出了普通企業(yè)的承受范圍。根據(jù)計(jì)算,訓(xùn)練一個(gè)5000億參數(shù)規(guī)模的Dense模型,基礎(chǔ)算力設(shè)施投入約10億美金,無(wú)故障運(yùn)行21個(gè)月,電費(fèi)約5.3億元——這是現(xiàn)階段無(wú)法接受的算力投入。

那么,“三個(gè)臭皮匠”不僅能“頂個(gè)諸葛亮”,同時(shí)培養(yǎng)“三個(gè)臭皮匠”所需要的資源和成本可比培養(yǎng)“諸葛亮”可就相對(duì)簡(jiǎn)單多了。像源2.0-M32在處理邏輯、代碼生成、知識(shí)等方面的能力是可以對(duì)標(biāo)Llama3-700億的,但其所需要但推理算力卻低了一個(gè)量級(jí),只有Llama3-700億的十九分之一。

相當(dāng)?shù)闹悄芩?,但算力投入?yún)s大幅減少,這也就意味著通過(guò)模算效率的提升,我們完全可以用更少的算力投入產(chǎn)出更智能的模型。這會(huì)是未來(lái)解決算力挑戰(zhàn)的一個(gè)關(guān)鍵思路,MoE模型的大火,所帶來(lái)的是一個(gè)AI行業(yè)解題思路的大轉(zhuǎn)變。

二、算法層面的優(yōu)化:三個(gè)“臭皮匠”的搭配和配合是一門藝術(shù)。

雖說(shuō)“三個(gè)臭皮匠,頂個(gè)諸葛亮”,但是這“三個(gè)臭皮匠”如何選擇、搭配以及配合處理任務(wù),恰恰才是其“頂個(gè)諸葛亮”的根本。

更直觀的對(duì)比,以古代作戰(zhàn)為例,同樣是一群人打架,為什么散兵游勇很難和正規(guī)軍進(jìn)行對(duì)抗、戰(zhàn)斗?其根本在于正規(guī)軍有專業(yè)的兵種搭配和配合,也就是“兵法”的輔助。放到AI領(lǐng)域,算法即“兵法”。

在MoE模型上,雖說(shuō)核心思路是一致的,但是關(guān)于門控網(wǎng)絡(luò)的位置、模型、專家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案,各家方案都不盡相同,由此將拉開(kāi)各家MoE模型在應(yīng)用上的差距。

比如,在算法層面,源2.0-M32就提出并采用了一種新型的算法結(jié)構(gòu):基于注意力機(jī)制的門控網(wǎng)絡(luò)(Attention Router)。針對(duì)MoE模型核心的專家調(diào)度策略,這種新的算法結(jié)構(gòu)更關(guān)注專家模型之間的協(xié)同性度量,有效解決傳統(tǒng)門控網(wǎng)絡(luò)下,選擇兩個(gè)或多個(gè)專家參與計(jì)算時(shí)關(guān)聯(lián)性缺失的問(wèn)題,使得專家之間協(xié)同處理數(shù)據(jù)的水平大為提升。

同時(shí),源2.0-M32采用了源2.0-2B為基礎(chǔ)模型設(shè)計(jì),由此得以沿用并融合局部過(guò)濾增強(qiáng)的注意力機(jī)制(LFA, Localized Filtering-based Attention),通過(guò)先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征,對(duì)于自然語(yǔ)言的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確,進(jìn)而提升了模型精度。

基于注意力機(jī)制的門控網(wǎng)絡(luò)(Attention Router)

在MoE模型中,算法層面的優(yōu)化將是模算效率提升的一個(gè)很好補(bǔ)充。簡(jiǎn)單來(lái)說(shuō),“三個(gè)臭皮匠”,能基于算法優(yōu)化而發(fā)揮出更大的價(jià)值,在處理問(wèn)題上得到更好的反饋。這或許也是接下來(lái)各家MoE模型進(jìn)一步拉開(kāi)差距的關(guān)鍵。

三、數(shù)據(jù)需求的延續(xù):“諸葛亮”和“臭皮匠”都需要高質(zhì)量的數(shù)據(jù)投喂。

這一點(diǎn)毋庸置疑,“諸葛亮”和“臭皮匠”同屬于“人”,其成長(zhǎng)的根本在于高質(zhì)量知識(shí)的吸收。同樣的,MoE模型和Dense模型也都同屬于AI模型,都需要高質(zhì)量的數(shù)據(jù)投喂,數(shù)據(jù)質(zhì)量越高,對(duì)應(yīng)產(chǎn)出的模型精度越高。

為什么源2.0-M32在代碼生成、代碼理解、代碼推理、數(shù)學(xué)求解等方面有著出色的表現(xiàn),其根本在于數(shù)據(jù)質(zhì)量。源2.0-M32基于2萬(wàn)億的token進(jìn)行訓(xùn)練,覆蓋萬(wàn)億量級(jí)的代碼、中英文書(shū)籍、百科、論文及合成數(shù)據(jù)。其中,大幅擴(kuò)展代碼數(shù)據(jù)占比至47.5%,從6類最流行的代碼擴(kuò)充至619類,并通過(guò)對(duì)代碼中英文注釋的翻譯,將中文代碼數(shù)據(jù)量增大至1800億token。

總的來(lái)說(shuō),培養(yǎng)“臭皮匠”與培養(yǎng)“諸葛亮”所需要的資源并沒(méi)有太多本質(zhì)上的區(qū)別,只是培養(yǎng)的思路、方法有所優(yōu)化,從而使得我們能用更少的資源、成本就培養(yǎng)出了一個(gè)能相當(dāng)甚至是超過(guò)“諸葛亮”的“臭皮匠”智囊團(tuán)。由此,MoE模型成了各大廠商爭(zhēng)先布局的重要方向。

MoE模型普及的關(guān)鍵,仍需要解決最核心的算力問(wèn)題

正如前面所說(shuō),MoE模型和Dense模型同屬于AI,在發(fā)展需要上并沒(méi)有太大的本質(zhì)區(qū)別。因此,長(zhǎng)期以來(lái)困擾AI發(fā)展的算力問(wèn)題如算力太貴、算力供給不足、算力資源不平衡、算力利用率低等,還是MoE同樣面對(duì)的,甚至是其走向大眾市場(chǎng)的一個(gè)明顯阻礙。

浪潮信息在發(fā)布源2.0-M32大模型時(shí),吳韶華就提到,“這個(gè)模型我們?cè)谘邪l(fā)的初衷就是為了大幅提升基礎(chǔ)模型的模算效率,在這里面有兩個(gè)層面,一方面是提升它的精度,另一方面是降低同等精度水平下的算力開(kāi)銷。”

現(xiàn)如今,很多企業(yè)對(duì)MoE模型的重視大多聚焦模型能力,殊不知算力開(kāi)銷也是一個(gè)重要考量。若能花更少的算力,辦更多的事情,那么對(duì)于MoE模型而言將是普及的關(guān)鍵。

目前,源2.0-M32大幅提升了模型算力效率,在實(shí)現(xiàn)與業(yè)界領(lǐng)先開(kāi)源大模型性能相當(dāng)?shù)耐瑫r(shí),顯著降低了在模型訓(xùn)練、微調(diào)和推理所需的算力開(kāi)銷。

源2.0-M32業(yè)界主流評(píng)測(cè)任務(wù)表現(xiàn)

其中,在模型推理運(yùn)行階段,源2.0-M32處理每token所需算力僅為7.4Gflops,而LLaMA3-70B所需算力則為140Gflops。在模型微調(diào)訓(xùn)練階段,同樣是對(duì)1萬(wàn)條平均長(zhǎng)度為1024 token的樣本進(jìn)行全量微調(diào),源2.0-M32消耗算力約0.0026PD(PetaFLOPs/s-Day),而LLaMA3消耗算力約為0.05PD。

目前,源2.0-M32的激活參數(shù)為37億,但是卻取得了和700億參數(shù)LLaMA3相當(dāng)?shù)男阅芩剑乃懔H為L(zhǎng)LaMA3的1/19。如此大幅提升的模算效率,將為企業(yè)開(kāi)發(fā)應(yīng)用生成式AI提供一條“模型高性能、算力低門檻”的優(yōu)質(zhì)路徑。

根據(jù)浪潮信息透露,源2.0-M32開(kāi)源大模型配合企業(yè)大模型開(kāi)發(fā)平臺(tái)EPAI(Enterprise Platform of AI),將助力企業(yè)實(shí)現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地。也就是說(shuō),在技術(shù)層面,MoE模型將加速普及,而在應(yīng)用層面,源2.0-M32所提升的模算效率,對(duì)模型能力和算力開(kāi)銷兩大問(wèn)題的解決將進(jìn)一步加速生成式AI的普及應(yīng)用,讓更多企業(yè)都能享受到AI的時(shí)代紅利。

寫在最后

MoE模型并非人工智能技術(shù)前進(jìn)的終點(diǎn),更不是大模型發(fā)展的最終形態(tài)。但是,它的出現(xiàn)著實(shí)是改變了AI發(fā)展的路徑,讓AI落地有了更清晰的方向。

今天,大模型迫切地需要變得越來(lái)越大,但是單純的變大并不能解決行業(yè)問(wèn)題,大模型更應(yīng)該想清楚如何變得越來(lái)越有用?!坝杏谩笔且粋€(gè)復(fù)雜的概念,既需要模型能力夠強(qiáng),也需要算力開(kāi)銷夠小,讓企業(yè)用得起、用得好。

浪潮信息所強(qiáng)調(diào)的模算效率就旨在解決這兩大問(wèn)題。事實(shí)上,從源2.0-M32的發(fā)布來(lái)看,模算效率的提升確實(shí)把MoE模型推向了一個(gè)更廣泛的發(fā)展階段,我們甚至能在此看到不同行業(yè)、不同企業(yè)都能用上、用好MoE模型的可能。

*本文圖片均來(lái)源于網(wǎng)絡(luò)

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-05-29
MoE模型大火,源2.0-M32詮釋“三個(gè)臭皮匠,頂個(gè)諸葛亮”!
MoE模型大火,源2.0-M32詮釋“三個(gè)臭皮匠,頂個(gè)諸葛亮”!

長(zhǎng)按掃碼 閱讀全文