IT影響中國(guó)2023:銳捷AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案榮獲影響力解決方案獎(jiǎng)

在并不平凡的2023年,天極網(wǎng)與大家一起見證數(shù)智化技術(shù)賦予時(shí)代的深刻變革。以智算中心場(chǎng)景為例,大模型訓(xùn)練及推理在使智能算力需求激增的同時(shí),也對(duì)AI集群網(wǎng)絡(luò)性能提出更為嚴(yán)苛的要求,高吞吐、大帶寬、高可用已成為新一代智算中心網(wǎng)絡(luò)建設(shè)的特性......

致敬數(shù)智化時(shí)代,第二十二屆IT影響中國(guó)深入挖掘行業(yè)創(chuàng)新價(jià)值、傾聽消費(fèi)者心聲,評(píng)選出具有行業(yè)代表價(jià)值的科技產(chǎn)品及解決方案,見證數(shù)智時(shí)代的科技創(chuàng)新。經(jīng)評(píng)委會(huì)綜合評(píng)定,第二十二屆IT影響中國(guó)特授予銳捷AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案以“年度影響力解決方案獎(jiǎng)”。

隨著AIGC技術(shù)賦能產(chǎn)業(yè)持續(xù)升級(jí),AI大模型算力消耗驚人,單一計(jì)算設(shè)備已遠(yuǎn)遠(yuǎn)無法滿足模型訓(xùn)練的算力需求,盡管分布式訓(xùn)練可以通過多個(gè)GPU節(jié)點(diǎn)并行訓(xùn)練,但隨著AIGC快速發(fā)展,模型參數(shù)數(shù)量不斷飆升,AI集群的GPU節(jié)點(diǎn)數(shù)也在不斷增加,瓶頸也越來越突出。在這個(gè)背景下,GPU利用率成為提升AI大模型訓(xùn)練速度的主要保障,而影響GPU利用率的關(guān)鍵因素之一就是網(wǎng)絡(luò)通信效率。

那么,影響網(wǎng)絡(luò)通信效率的因素拋開硬件性能的限制,針對(duì)端處理時(shí)延、內(nèi)部排隊(duì)時(shí)延和丟包重傳時(shí)延三大動(dòng)態(tài)因素優(yōu)化網(wǎng)絡(luò)擁塞和時(shí)延,已經(jīng)成為提升AI集群網(wǎng)絡(luò)通信性能最具成本效益的方法。基于這些思考,銳捷網(wǎng)絡(luò)致力于提升通信帶寬利用率,降低動(dòng)態(tài)時(shí)延以及實(shí)現(xiàn)無損的網(wǎng)絡(luò)傳輸,以提升AI集群網(wǎng)絡(luò)通信性能。2023年,銳捷網(wǎng)絡(luò)面向下一代AI云服務(wù)的智算中心網(wǎng)絡(luò)建設(shè),重磅發(fā)布了銳捷網(wǎng)絡(luò)AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案。

二級(jí)組網(wǎng)架構(gòu)

多級(jí)組網(wǎng)架構(gòu)

銳捷網(wǎng)絡(luò)AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案擁有高性能、高可靠、高兼容、高可用“四高”特性,可應(yīng)用于大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、AIGC多種業(yè)務(wù)場(chǎng)景,幫助客戶構(gòu)建萬卡級(jí)別的智算中心網(wǎng)絡(luò)。

高性能

支持大規(guī)模組網(wǎng):采用NCP+NCF為基礎(chǔ)模塊的三級(jí)多軌網(wǎng)絡(luò)架構(gòu),三級(jí)組網(wǎng)可承載17K-32K的大規(guī)模GPU卡集群,多軌架構(gòu)可將同號(hào)GPU的流量規(guī)劃在同一Pod內(nèi),從而有效減少數(shù)據(jù)轉(zhuǎn)發(fā)跳數(shù),大幅降低通信時(shí)延。

高帶寬利用率:基于高性能芯片技術(shù),通過將數(shù)據(jù)流切分成等長(zhǎng)的Cell并負(fù)載到所有鏈路,讓數(shù)據(jù)流轉(zhuǎn)發(fā)負(fù)載更均衡,將網(wǎng)絡(luò)帶寬利用率提升20%以上,從而有效降低長(zhǎng)尾延時(shí),保障AI集群的低延時(shí)通信。

高可靠

自閉環(huán)的無損傳輸:基于VOQ+Credit信令機(jī)制,主機(jī)接收端發(fā)送Credit,確保主機(jī)發(fā)送端流量在接收端不會(huì)過載,規(guī)避了RDMA對(duì)擁塞信號(hào)“事后”響應(yīng)而造成的網(wǎng)絡(luò)不確定性,真正實(shí)現(xiàn)了無損AI算力網(wǎng)絡(luò)的通信。

去中心化的分布式OS:實(shí)現(xiàn)了控制面與管理面解耦,有效縮小故障域,設(shè)備可以獨(dú)立升級(jí),提升系統(tǒng)冗余性和可靠性,大幅提升了集群的穩(wěn)定性。

鏈路故障快速恢復(fù):基于硬件的自動(dòng)故障隔離和恢復(fù),無需軟件干預(yù)和表項(xiàng)更新,即可實(shí)現(xiàn)微秒級(jí)的故障快速恢復(fù),實(shí)現(xiàn)故障無丟包的網(wǎng)絡(luò)系統(tǒng)。

高兼容

實(shí)現(xiàn)端網(wǎng)解耦:AI-FlexiForce網(wǎng)絡(luò)由Credit信令控制NCP之間的流量轉(zhuǎn)發(fā),無需端側(cè)參與流量控制,使AI網(wǎng)絡(luò)不依賴于特定廠商的服務(wù)器/網(wǎng)卡的特定功能,可兼容全廠商全型號(hào)GPU方案,同時(shí)還支持不同GPU混合部署。

高可用

快速上線部署:在部署上線時(shí),使用者無需復(fù)雜網(wǎng)絡(luò)調(diào)參,即可實(shí)現(xiàn)即插即用的網(wǎng)絡(luò),直接進(jìn)入可使用網(wǎng)絡(luò)環(huán)境。

無需流量調(diào)度:在多任務(wù)場(chǎng)景下,出現(xiàn)網(wǎng)絡(luò)擁塞的幾率大幅增加,AI-FlexiForce網(wǎng)絡(luò)無需流量調(diào)度器也可以實(shí)現(xiàn)95%以上的高帶寬利用率,適配各種模型的流量。

天極網(wǎng)認(rèn)為

銳捷網(wǎng)絡(luò)AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案可實(shí)現(xiàn)即插即用的網(wǎng)絡(luò)、支持大規(guī)模三級(jí)組網(wǎng)、全場(chǎng)景適用、負(fù)載均衡、帶寬利用率達(dá)97%、us級(jí)硬件自愈等多種獨(dú)特優(yōu)勢(shì),助力打造集約高效的智算中心,為算力釋放提供強(qiáng)大支撐。

AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案由400G NCP交換機(jī)和200G NCF交換機(jī)組成:

·NCP設(shè)備為RG-S6930-18QC40F1,提供18個(gè)400G業(yè)務(wù)口和40個(gè)200G內(nèi)聯(lián)口。

·NCF設(shè)備為RG-X56-96F1,提供96個(gè)200G內(nèi)聯(lián)口。

NCP產(chǎn)品RG-S6930-18QC40F1

NCF產(chǎn)品RG-X56-96F1

科技創(chuàng)新的浪潮不斷奔涌向前,引領(lǐng)數(shù)智時(shí)代發(fā)展的新技術(shù)、新事物也不斷涌現(xiàn)。2023年天極網(wǎng)也與科技企業(yè)一同感受到數(shù)智化、智能化技術(shù)的力量,尤其是大模型技術(shù)的持續(xù)發(fā)展為智算中心網(wǎng)絡(luò)帶來深刻的影響。我們注意到銳捷網(wǎng)絡(luò)通過持續(xù)的技術(shù)研發(fā)和產(chǎn)品創(chuàng)新為智算中心帶來高性能、高可靠、高兼容、高可用的AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案,賦能智算中心網(wǎng)絡(luò)建設(shè)。榮獲IT影響中國(guó)2023“年度影響力解決方案獎(jiǎng)”,銳捷網(wǎng)絡(luò)AI-FlexiForce智算中心網(wǎng)絡(luò)解決方案實(shí)至名歸。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )