華為云發(fā)布EMS彈性內(nèi)存存儲(chǔ) 突破內(nèi)存墻限制

在華為開發(fā)者大會(huì)(HDC 2024)上,華為云CTO張宇昕正式發(fā)布了EMS彈性內(nèi)存存儲(chǔ)服務(wù)。這一服務(wù)主要為了解決當(dāng)前大模型訓(xùn)練與推理領(lǐng)域所面臨的“內(nèi)存墻”挑戰(zhàn),即單個(gè)神經(jīng)處理單元(NPU)的高帶寬內(nèi)存(HBM)容量限制,該問題長(zhǎng)期制約著AI算力的高效利用。

華為云EMS的創(chuàng)新之處在于它在NPU卡與持久化存儲(chǔ)之間增設(shè)了一層彈性內(nèi)存存儲(chǔ),運(yùn)用Memory Pooling專利技術(shù),綜合顯存擴(kuò)展、算力卸載和以存代算三大策略,有效打破了內(nèi)存瓶頸。具體來(lái)說:

顯存擴(kuò)展:大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能將模型參數(shù)裝下來(lái)進(jìn)行推理,但是NPU的算力往往利用率不高。EMS將模型參數(shù)分層存儲(chǔ)在顯存和EMS,只用了一半的卡,就可存下萬(wàn)億參數(shù)的大模型,NPU部署數(shù)量減少50%。

算力卸載:大模型推理過程中包括模型計(jì)算和KV相關(guān)計(jì)算,其中KV相關(guān)計(jì)算的顯存占用很大。EMS將KV相關(guān)計(jì)算的步驟卸載到EMS,而模型計(jì)算仍在NPU中進(jìn)行,將AI推理性能提升了100%。

以存代算:大模型推理中為了節(jié)省顯存,歷史對(duì)話的KV Cache都不會(huì)保存,后續(xù)推理都只能重新計(jì)算,導(dǎo)致新推理的首Token時(shí)延超過1秒?,F(xiàn)在可以將歷史KV Cache保存在EMS里,供后續(xù)推理直接調(diào)用。優(yōu)化后推理首Token時(shí)延降低到0.2秒以內(nèi),優(yōu)化了80%。

目前,EMS彈性內(nèi)存存儲(chǔ)服務(wù)已在華為云官網(wǎng)上線,面向開發(fā)者與客戶開放。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )