英偉達“超神”的背后:AI廠商迫切地在MoE模型上尋求算力新解法

文 | 智能相對論

作者 | 陳泊丞

在過去的一年多時間內(nèi),英偉達破天荒地完成了市值的“三級跳”。

一年前,英偉達的市值并尚不足1萬億美元,位居谷歌母公司Alphabet、亞馬遜、蘋果和微軟等科技巨頭之后。

時至今日,英偉達市值突破3萬億美元,超越蘋果,僅次于微軟。

這樣的成就歸功于英偉達在AI芯片領(lǐng)域的顯著優(yōu)勢。隨著生成式AI進入規(guī)模化爆發(fā)階段,算力需求愈發(fā)膨脹,由此英偉達的AI芯片便成了市場的“香餑餑”。

然而,市場對算力的需求遠超大眾的想象,英偉達的高端芯片也是一卡難求,在這個節(jié)點上AI行業(yè)不得不在其他層面上尋求破局算力荒的新解法。

如今,在算法架構(gòu)上,MoE混合專家模型憑借其在算力效率上的顯著優(yōu)勢持續(xù)走紅,成為越來越多AI廠商共同探索的新方向。

那么,MoE模型的走紅,是否真的能為AI行業(yè)破解算力荒?

MoE模型劍指算力效率:優(yōu)化算法,壓榨性能

區(qū)別于稠密(Dense)模型,MoE模型采用采用稀疏激活機制,在處理任務(wù)的過程中往往可以根據(jù)不同的任務(wù)需求,只需要激活一部分專家網(wǎng)絡(luò)即可,而非激活全部參數(shù),從而很好地提高了計算效率,更高效地利用計算資源。

比如,阿里巴巴的Qwen1.5-MoE-A2.7B模型在總參數(shù)量為143億的情況下,每次推理只激活27億參數(shù)。類似的,DeepSeek-MoE 16B的總參數(shù)量為164億,但每次推理只激活約28億的參數(shù)等等。

以上這種設(shè)計,就有效平衡了模型的性能與計算資源的使用效率。

因此,盡管MoE模型通常擁有更多的參數(shù),但由于其稀疏性,訓練開銷可以顯著降低。又比如,在實踐中,使用Qwen1.5-MoE-A2.7B相比于Qwen1.5-7B,訓練成本顯著降低了75%。

再以浪潮信息的源2.0-M32開源MoE模型來說,我們發(fā)現(xiàn),源2.0-M32在2顆CPU,80GB內(nèi)存的單臺服務(wù)器上即可部署高性能推理服務(wù),而Llama3-70B則需要在4顆80G顯存的GPU服務(wù)器上才能完成部署和運行。

通過這樣的對比,就可以發(fā)現(xiàn),憑借MoE模型在算力效率上的顯著優(yōu)勢便能在AI基礎(chǔ)設(shè)施層面減少投入,緩解對高端GPU芯片的過度依賴。根據(jù)推算性能測試,如今源2.0-M32的單Token推理算力需求是Llama3-70B的1/19。

之所以能達到這樣的效果,是因為MoE模型通過將模型劃分為多個小型的專家網(wǎng)絡(luò),而這種劃分允許模型在保持性能的同時,減少所需的存儲空間和內(nèi)存帶寬。由于在訓練過程中模型大小的減少,MoE模型需要的計算資源也隨之減少,這意味著相比于同等性能的密集模型,MoE可以以更低的硬件成本和更短的訓練時間完成訓練。

可以說,MoE模型本質(zhì)上是一種高效的Scaling技術(shù),在允許參數(shù)規(guī)模拓展的過程中也為算力投入提供了一個較好的解決方案,讓大模型在保證規(guī)模和精度的同時具備了加速落地的可能。

更少的算力是否意味著性能打折?

盡管MoE模型可以用較少的算力去進行訓練,但這并不意味著其性能會大打折扣。

在實踐中,MoE模型通過細粒度專家的設(shè)計、非從頭訓練的初始化方法和帶有共享及路由專家的路由機制等技術(shù)創(chuàng)新,使模型在保持較小參數(shù)量的同時,能夠激活并利用更加精細的計算資源。這也就使得MoE模型在保持高性能的同時,有效降低了計算資源消耗。

簡單對比一下MoE模型和Dense模型的計算性能,源2.0-M32在支持BF16精度的2顆CPU服務(wù)器上,約20小時就能完成1萬條樣本的全量微調(diào)。而在同樣的CPU服務(wù)器上,Llama3-70B完成全量微調(diào)則是需要約16天的時間。

由此來說,MoE模型在計算性能上并沒有因為算力的問題而大打折扣,反而還提升了不少。同樣的算力支持,MoE模型可以產(chǎn)出更智能的應(yīng)用和實現(xiàn)更高效的性能。

這樣的結(jié)果涉及MoE模型多種算法的創(chuàng)新和優(yōu)化。MoE模型通過引入專家網(wǎng)絡(luò)(Expert Networks)和門控機制(Gating Mechanism)實現(xiàn)了模型的稀疏化和模塊化,但是模型的性能問題依舊還沒有得到很好的解決和優(yōu)化。

隨后,行業(yè)繼續(xù)從不同的角度對MoE模型的性能提升進行探索。其中,QLoRA微調(diào)技術(shù)是針對預(yù)訓練模型的,通過對專家網(wǎng)絡(luò)的參數(shù)進行低秩分解,將高維參數(shù)矩陣分解為低秩矩陣的乘積。然后對這些低秩矩陣和量化參數(shù)進行微調(diào),而不是整個專家網(wǎng)絡(luò)參數(shù),進一步提升模型的性能。

同時,微軟又提出了一個端到端的MoE訓練和推理解決方案DeepSpeed-MoE,其通過深度優(yōu)化MoE在并行訓練中的通信,減少通信開銷,并實現(xiàn)高效的模型并行。此外,DeepSpeed-MoE還提出了基于微調(diào)的專家排序機制,可以根據(jù)訓練過程中專家的損失動態(tài)調(diào)整輸入樣本到專家的分配,提升效果。

總的來說,針對MoE模型的性能問題,業(yè)內(nèi)一直在致力于創(chuàng)新和探索新的算法和技術(shù)來進行提升和優(yōu)化。目前,MoE所展現(xiàn)出了巨大的性能潛力,并不輸Dense模型。

寫在最后

現(xiàn)階段,算力吃緊是不爭的事實,日趨激烈的算力需求促使了英偉達的“超神”故事。但是,AI大模型廠商們也并非坐以待斃,針對算法架構(gòu)層面的創(chuàng)新和優(yōu)化持續(xù)涌現(xiàn),MoE模型的走紅正預(yù)示著AI行業(yè)進入了算法+基礎(chǔ)設(shè)施兩手抓的階段。

可以預(yù)見的是,MoE模型的持續(xù)迭代在解決AI算力荒的同時也在跨越式地提升AI模型的性能,把人工智能帶入一個全新的發(fā)展階段。胡適曾提到一種經(jīng)典的戰(zhàn)略思想:大膽假設(shè),小心求證。

從某種程度來說,MoE模型的走紅,恰恰是這一戰(zhàn)略思路的呈現(xiàn)。AI行業(yè)對算力、性能等問題的探討,在假設(shè)和求證中,MoE模型為人工智能找到了一條更為清晰的發(fā)展之路。

*本文圖片均來源于網(wǎng)絡(luò)

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-06-20
英偉達“超神”的背后:AI廠商迫切地在MoE模型上尋求算力新解法
英偉達“超神”的背后:AI廠商迫切地在MoE模型上尋求算力新解法

長按掃碼 閱讀全文