10月11日消息(岳明)大模型需要大算力,大算力需要大集群,大集群需要大網(wǎng)絡(luò)!
如何去構(gòu)建這張大網(wǎng)絡(luò),在本周舉行的“Advancing AI 2024”上,AMD給出了明確的答案:全面擁抱以太網(wǎng),全面擁抱DPU。
UEC加速成熟:Ethernet is the answer
與傳統(tǒng)數(shù)據(jù)中心存在很大不同,主要由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成的智算中心需要完全不同的網(wǎng)絡(luò)架構(gòu)。
當(dāng)大模型訓(xùn)練時(shí),并行計(jì)算節(jié)點(diǎn)越多,通信效率越重要,智算網(wǎng)絡(luò)性能成為集群算力提升的關(guān)鍵。但傳統(tǒng)網(wǎng)絡(luò)技術(shù)難以適應(yīng)大規(guī)模AI集群的發(fā)展需求,在實(shí)際組網(wǎng)過(guò)程中面臨著四大難題:大規(guī)模網(wǎng)絡(luò)擁塞控制難、突發(fā)大象流負(fù)載均衡難、巨量鏈路長(zhǎng)期穩(wěn)定運(yùn)行難、敏感隱私數(shù)據(jù)安全保障難。
對(duì)此,業(yè)界有幾種不同的解決方案。比如英偉達(dá)主導(dǎo)的InfiniBand,雖然現(xiàn)在市占率很高,但I(xiàn)nfiniBand在產(chǎn)業(yè)開放性、部署成本方面非常不友好。另外就是從底層革新傳統(tǒng)以太網(wǎng)機(jī)制,在最大限度的利用以太網(wǎng)產(chǎn)業(yè)開放性和成熟性的同時(shí),重構(gòu)高擴(kuò)展、高穩(wěn)定、高可靠的以太網(wǎng)堆棧,滿足大規(guī)模AI和HPC不斷增長(zhǎng)的網(wǎng)絡(luò)需求。UEC就是該技術(shù)路徑的典型代表,通過(guò)構(gòu)建支持RoCE(RDMA over Converged Ethernet)的無(wú)損網(wǎng)絡(luò),做到不丟包,支持以太網(wǎng)RDMA,滿足高帶寬和高利用率需求。
在“Advancing AI 2024”上,AMD執(zhí)行副總裁,數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理Forrest Norrod就指出,網(wǎng)絡(luò)成為制約AI系統(tǒng)性能的關(guān)鍵,平均30%的訓(xùn)練時(shí)間被用來(lái)等待聯(lián)網(wǎng);而在訓(xùn)練和分布式推理中,通信更是占40%-75%的時(shí)間。這對(duì)于動(dòng)輒部署萬(wàn)卡集群的用戶而言是難以承受的。
在他看來(lái),UEC是AI網(wǎng)絡(luò)變革的首選:從總體擁有成本(TCO)角度來(lái)看,相比較于InfiniBand,以太網(wǎng)下降了50%;可擴(kuò)展性角度來(lái)看,以太網(wǎng)可以支持高達(dá)100萬(wàn)+GPU的超大規(guī)模集群部署,遠(yuǎn)遠(yuǎn)超過(guò)InfiniBand;從生態(tài)系統(tǒng)的角度來(lái)看,UEC聯(lián)盟已經(jīng)有超過(guò)97名成員,其中包括微軟、Meta、AMD、博通等眾多大廠,UEC1.0規(guī)范也將在明年一季度發(fā)布。有意思的是,英偉達(dá)在前段時(shí)間也加入了UEC。
在“Advancing AI 2024”的現(xiàn)場(chǎng),不僅是AMD,思科、微軟等多位技術(shù)負(fù)責(zé)人均進(jìn)行了分享。他們認(rèn)為在當(dāng)前的RDMA 環(huán)境下,超以太網(wǎng)協(xié)議有望支持百萬(wàn)節(jié)點(diǎn)互聯(lián),同時(shí)以太網(wǎng)的開放特性,能夠讓諸如LPO等新技術(shù)加速滲透,帶來(lái)高性價(jià)比、高容量、高開放程度的AI網(wǎng)絡(luò)。
第三代DPU Salina:以AI速度交付網(wǎng)絡(luò)創(chuàng)新
在AMD的AI網(wǎng)絡(luò)戰(zhàn)略拼圖中,既有關(guān)注底層芯片級(jí)互聯(lián)的Infinity Fabric,極具性能優(yōu)勢(shì)的在AMD的AI網(wǎng)絡(luò)戰(zhàn)略拼圖中,既有關(guān)注底層芯片級(jí)互聯(lián)的Infinity Fabric,但DPU占據(jù)了更為重要的版圖。
對(duì)于云服務(wù)提供商而言,要實(shí)現(xiàn)利益最大化,就必須要充分釋放CPU/GPU等算力資源。云服務(wù)先驅(qū)亞馬遜率先引入了DPU概念和產(chǎn)品,實(shí)現(xiàn)將網(wǎng)絡(luò)、存儲(chǔ)、管理、安全和監(jiān)控等工作負(fù)載一并卸載,而這也為亞馬遜贏得了市場(chǎng)先機(jī)。
DPU的好處得到用戶的廣泛認(rèn)可。2022年4月,AMD斥資19億美元購(gòu)買DPU廠商Pensando,并成功實(shí)現(xiàn)了第一代Capri和第二代Elba兩大DPU的量產(chǎn)。在“Advancing AI 2024”的現(xiàn)場(chǎng),AMD正式發(fā)布了采用P4引擎的第三代DPU產(chǎn)品—Salina,以AI速度交付網(wǎng)絡(luò)創(chuàng)新。
從AMD提供的產(chǎn)品技術(shù)規(guī)格上來(lái)看,Salina采用5nm制程工藝打造,實(shí)現(xiàn)兩倍于上一代的性能。而且,AMD Pensando DPU支持軟件前向兼容,節(jié)省了應(yīng)用程序開發(fā)所需的時(shí)間。在性能方面,Salina最高支持800G(400G*2)網(wǎng)絡(luò),這與AI數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)是完全匹配的,同時(shí)Salina支持完全可編程,具備相當(dāng)?shù)撵`活性。
在會(huì)議現(xiàn)場(chǎng),包括IBM云、微軟Azure、甲骨文云、思科等用戶的技術(shù)高管也都談到了AMD Pensando DPU在不同應(yīng)用場(chǎng)景中的價(jià)值。微軟Azure主要是用基于DPU的智能交換機(jī)來(lái)完成SDN解耦,而甲骨文云和IBM云則是硬件上用到DPU卡,軟件上除了使用Pensando提供的SDK和庫(kù),還有定制的邏輯應(yīng)用,方便客戶添加軟件定義的服務(wù)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 生成式人工智能:2025年值得預(yù)測(cè)的主要趨勢(shì)
- LED改造照明的優(yōu)勢(shì):家居和商業(yè)
- 2025年網(wǎng)絡(luò)安全主要趨勢(shì)
- 2025年智能辦公趨勢(shì)
- 程建軍任中國(guó)移動(dòng)副總經(jīng)理、黨組成員
- 盤點(diǎn)光模塊行業(yè)2024:AI需求熱度不減,技術(shù)演進(jìn)明顯加速
- LightCounting:CPO發(fā)展現(xiàn)復(fù)蘇勢(shì)頭,部署或?qū)⒑芸扉_始
- 中國(guó)移動(dòng)小型化天線產(chǎn)品集采:規(guī)模為4.59萬(wàn)面
- 價(jià)值1.59億元 訊飛中標(biāo)山東肥城人工智能行業(yè)大模型項(xiàng)目
- 房地產(chǎn)可再生能源儲(chǔ)存新技術(shù)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。