6月21日,在華為開(kāi)發(fā)者大會(huì)2024上,華為云CTO張宇昕以“AI Native的華為云,系統(tǒng)創(chuàng)新 X 服務(wù)重塑,賦能萬(wàn)千開(kāi)發(fā)者”為主題發(fā)表演講,全面介紹了華為云如何通過(guò)“為AI” 進(jìn)行全棧系統(tǒng)性創(chuàng)新,同時(shí)“用AI” 重塑系列云服務(wù),從而打造AI Native的云。并正式發(fā)布了華為云存儲(chǔ)重磅新品EMS彈性內(nèi)存存儲(chǔ)服務(wù)。
張宇昕表示,目前AI業(yè)界普遍認(rèn)為顯存容量和帶寬不足已經(jīng)成為限制AI訓(xùn)練和推理過(guò)程中算力發(fā)揮的關(guān)鍵障礙,這就是業(yè)界常說(shuō)的AI內(nèi)存墻難題。華為云為解決該難題,首創(chuàng)EMS彈性內(nèi)存存儲(chǔ)服務(wù),在NPU計(jì)算層和持久化存儲(chǔ)層的兩層架構(gòu)之間增加彈性內(nèi)存存儲(chǔ)層,成功打破AI內(nèi)存墻,實(shí)現(xiàn)顯存按需擴(kuò)展。目前EMS彈性內(nèi)存存儲(chǔ)服務(wù)已經(jīng)在華為內(nèi)部IT系統(tǒng)和多個(gè)行業(yè)核心業(yè)務(wù)系統(tǒng)得到應(yīng)用。
華為云CTO張宇昕
據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù),顯存容量增長(zhǎng)速度遠(yuǎn)遠(yuǎn)落后于大模型存儲(chǔ)需求的增長(zhǎng)速度。如下圖所示,典型的Transformer大模型的參數(shù)量每?jī)赡暌?40倍的速度增長(zhǎng),而業(yè)界典型的AI NPU卡的顯存容量?jī)H每?jī)赡攴瓋杀?。這種大模型參數(shù)量與AINPU卡顯存容量增長(zhǎng)速度之間的巨大差距,意味著在訓(xùn)練和推理時(shí)客戶往往不得不采用堆砌AINPU卡數(shù)量的方式獲得更大的顯存容量,這將造成大量昂貴AI算力的浪費(fèi),增加了客戶的AI訓(xùn)練和推理的成本。
圖:SOTA 模型的參數(shù)量增長(zhǎng)趨勢(shì)和 AI 硬件顯存容量增長(zhǎng)趨勢(shì)
本次華為云發(fā)布的EMS彈性內(nèi)存存儲(chǔ)服務(wù),基于Memory Pooling專利技術(shù),將顯存與DRAM進(jìn)行池化和整合,把傳統(tǒng)的云基礎(chǔ)設(shè)施“計(jì)算-存儲(chǔ)”分離池化的兩層架構(gòu)升級(jí)為“計(jì)算-內(nèi)存-存儲(chǔ)”分離池化的三層架構(gòu)。AI算力和內(nèi)存(顯存+DRAM)進(jìn)行了解耦,實(shí)現(xiàn)了“顯存擴(kuò)展”、“算力卸載”、“以存代算”三大功能來(lái)打破AI內(nèi)存墻。
大模型訓(xùn)練通常采用參數(shù)并行,將模型參數(shù)分別存到多張卡的顯存中。在使用EMS后,通過(guò)“顯存擴(kuò)展”功能我們將模型參數(shù)進(jìn)行分層存儲(chǔ),頻繁更新的參數(shù)存儲(chǔ)在顯存中,不頻繁更新的參數(shù)存儲(chǔ)在EMS中,這樣就不再需要依賴增加AI加速卡來(lái)堆砌顯存容量了。華為云只用了不到一半的NPU卡就存下了盤古大模型 5.0,NPU部署數(shù)量降低了50%。
大模型推理過(guò)程包括模型計(jì)算和KV相關(guān)的計(jì)算,其中模型計(jì)算顯存占用較小,但是算力需求卻很高。與之相反,KV相關(guān)計(jì)算的顯存占用很大,AI算力需求卻并不高。這兩種計(jì)算過(guò)程對(duì)算力和顯存容量的不同需求造成AI NPU卡不能很好地發(fā)揮性能。例如,華為的一款NPU卡在運(yùn)行大模型推理時(shí)本來(lái)只能支持8個(gè)并發(fā)。我們將KV相關(guān)計(jì)算任務(wù)卸載到EMS中,而模型計(jì)算仍在NPU中進(jìn)行。單卡的并發(fā)提升到了16個(gè),AI推理性能提升100%。
最后是以存代算。大模型推理中為了節(jié)省顯存,歷史對(duì)話的KV計(jì)算結(jié)果都不會(huì)保存,后續(xù)推理都只能重新計(jì)算KV,導(dǎo)致新推理請(qǐng)求的首Token時(shí)延超過(guò)1秒,影響了推理體驗(yàn)。現(xiàn)在,通過(guò)EMS對(duì)顯存進(jìn)行擴(kuò)展后,我們可以將歷史KV計(jì)算結(jié)果保存在EMS中,供后續(xù)推理直接調(diào)用。優(yōu)化后推理首Token時(shí)延降低到0.2秒以內(nèi),降低了80%。
EMS彈性內(nèi)存存儲(chǔ)是業(yè)界云廠商中首個(gè)在實(shí)際場(chǎng)景中得到使用的內(nèi)存存儲(chǔ)服務(wù),通過(guò)Memory Pooling專利技術(shù)實(shí)現(xiàn)了“顯存擴(kuò)展”、“算力卸載”、“以存代算”三大功能來(lái)打破內(nèi)存墻。不僅如此,面向整個(gè)AI場(chǎng)景,華為云還形成了EMS彈性內(nèi)存存儲(chǔ)+SFS Turbo彈性文件存儲(chǔ)+OBS對(duì)象存儲(chǔ)的AI-Native智算存儲(chǔ)解決方案,實(shí)現(xiàn)萬(wàn)億模型存的下,訓(xùn)練任務(wù)恢復(fù)快,海量數(shù)據(jù)存的起,全面引領(lǐng)AI時(shí)代數(shù)據(jù)存儲(chǔ)變革,幫助客戶構(gòu)建AI Native的基礎(chǔ)設(shè)施。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )