花蝴蝶免费看片日本,向日葵视频官网

10月11日消息（岳明）大模型需要大算力，大算力需要大集群，大集群需要大網(wǎng)絡(luò)！

如何去構(gòu)建這張大網(wǎng)絡(luò)，在本周舉行的“Advancing AI 2024”上，AMD給出了明確的答案：全面擁抱以太網(wǎng)，全面擁抱DPU。

UEC加速成熟：Ethernet is the answer

與傳統(tǒng)數(shù)據(jù)中心存在很大不同，主要由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成的智算中心需要完全不同的網(wǎng)絡(luò)架構(gòu)。

當(dāng)大模型訓(xùn)練時，并行計算節(jié)點越多，通信效率越重要，智算網(wǎng)絡(luò)性能成為集群算力提升的關(guān)鍵。但傳統(tǒng)網(wǎng)絡(luò)技術(shù)難以適應(yīng)大規(guī)模AI集群的發(fā)展需求，在實際組網(wǎng)過程中面臨著四大難題：大規(guī)模網(wǎng)絡(luò)擁塞控制難、突發(fā)大象流負(fù)載均衡難、巨量鏈路長期穩(wěn)定運行難、敏感隱私數(shù)據(jù)安全保障難。

對此，業(yè)界有幾種不同的解決方案。比如英偉達主導(dǎo)的InfiniBand，雖然現(xiàn)在市占率很高，但InfiniBand在產(chǎn)業(yè)開放性、部署成本方面非常不友好。另外就是從底層革新傳統(tǒng)以太網(wǎng)機制，在最大限度的利用以太網(wǎng)產(chǎn)業(yè)開放性和成熟性的同時，重構(gòu)高擴展、高穩(wěn)定、高可靠的以太網(wǎng)堆棧，滿足大規(guī)模AI和HPC不斷增長的網(wǎng)絡(luò)需求。UEC就是該技術(shù)路徑的典型代表，通過構(gòu)建支持RoCE（RDMA over Converged Ethernet）的無損網(wǎng)絡(luò)，做到不丟包，支持以太網(wǎng)RDMA，滿足高帶寬和高利用率需求。

在“Advancing AI 2024”上，AMD執(zhí)行副總裁，數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理Forrest Norrod就指出，網(wǎng)絡(luò)成為制約AI系統(tǒng)性能的關(guān)鍵，平均30%的訓(xùn)練時間被用來等待聯(lián)網(wǎng)；而在訓(xùn)練和分布式推理中，通信更是占40%-75%的時間。這對于動輒部署萬卡集群的用戶而言是難以承受的。

在他看來，UEC是AI網(wǎng)絡(luò)變革的首選：從總體擁有成本（TCO）角度來看，相比較于InfiniBand，以太網(wǎng)下降了50%；可擴展性角度來看，以太網(wǎng)可以支持高達100萬+GPU的超大規(guī)模集群部署，遠遠超過InfiniBand；從生態(tài)系統(tǒng)的角度來看，UEC聯(lián)盟已經(jīng)有超過97名成員，其中包括微軟、Meta、AMD、博通等眾多大廠，UEC1.0規(guī)范也將在明年一季度發(fā)布。有意思的是，英偉達在前段時間也加入了UEC。

在“Advancing AI 2024”的現(xiàn)場，不僅是AMD，思科、微軟等多位技術(shù)負(fù)責(zé)人均進行了分享。他們認(rèn)為在當(dāng)前的RDMA 環(huán)境下，超以太網(wǎng)協(xié)議有望支持百萬節(jié)點互聯(lián)，同時以太網(wǎng)的開放特性，能夠讓諸如LPO等新技術(shù)加速滲透，帶來高性價比、高容量、高開放程度的AI網(wǎng)絡(luò)。

第三代DPU Salina：以AI速度交付網(wǎng)絡(luò)創(chuàng)新

在AMD的AI網(wǎng)絡(luò)戰(zhàn)略拼圖中，既有關(guān)注底層芯片級互聯(lián)的Infinity Fabric，極具性能優(yōu)勢的在AMD的AI網(wǎng)絡(luò)戰(zhàn)略拼圖中，既有關(guān)注底層芯片級互聯(lián)的Infinity Fabric，但DPU占據(jù)了更為重要的版圖。

對于云服務(wù)提供商而言，要實現(xiàn)利益最大化，就必須要充分釋放CPU/GPU等算力資源。云服務(wù)先驅(qū)亞馬遜率先引入了DPU概念和產(chǎn)品，實現(xiàn)將網(wǎng)絡(luò)、存儲、管理、安全和監(jiān)控等工作負(fù)載一并卸載，而這也為亞馬遜贏得了市場先機。

DPU的好處得到用戶的廣泛認(rèn)可。2022年4月，AMD斥資19億美元購買DPU廠商Pensando，并成功實現(xiàn)了第一代Capri和第二代Elba兩大DPU的量產(chǎn)。在“Advancing AI 2024”的現(xiàn)場，AMD正式發(fā)布了采用P4引擎的第三代DPU產(chǎn)品—Salina，以AI速度交付網(wǎng)絡(luò)創(chuàng)新。

從AMD提供的產(chǎn)品技術(shù)規(guī)格上來看，Salina采用5nm制程工藝打造，實現(xiàn)兩倍于上一代的性能。而且，AMD Pensando DPU支持軟件前向兼容，節(jié)省了應(yīng)用程序開發(fā)所需的時間。在性能方面，Salina最高支持800G（400G*2）網(wǎng)絡(luò)，這與AI數(shù)據(jù)中心網(wǎng)絡(luò)演進是完全匹配的，同時Salina支持完全可編程，具備相當(dāng)?shù)撵`活性。

在會議現(xiàn)場，包括IBM云、微軟Azure、甲骨文云、思科等用戶的技術(shù)高管也都談到了AMD Pensando DPU在不同應(yīng)用場景中的價值。微軟Azure主要是用基于DPU的智能交換機來完成SDN解耦，而甲骨文云和IBM云則是硬件上用到DPU卡，軟件上除了使用Pensando提供的SDK和庫，還有定制的邏輯應(yīng)用，方便客戶添加軟件定義的服務(wù)。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

全面擁抱UEC！AMD發(fā)布第三代 DPU Salina ：以AI速度交付網(wǎng)絡(luò)創(chuàng)新

下一篇