5月24日消息(張曉寶)5月23日,由CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦的2024中國(guó)高質(zhì)量發(fā)展論壇第四場(chǎng)——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”研討會(huì)成功舉行,京東光互聯(lián)架構(gòu)師陳琤在會(huì)上分享了關(guān)于《高性能計(jì)算網(wǎng)絡(luò)中的光互連》的主題發(fā)言。
京東在高性能計(jì)算網(wǎng)絡(luò)領(lǐng)域起步較早,持續(xù)在多個(gè)代際的智算拓?fù)渖献隽舜罅康耐度耄瑧?yīng)用場(chǎng)景涉及到了推薦算法、智能客服,AI售賣租賃、數(shù)字人直播等等。
智算網(wǎng)絡(luò)拓?fù)湟话惴譃閮深惇?dú)立的網(wǎng)絡(luò),其一是接入/存儲(chǔ)網(wǎng)絡(luò),主要實(shí)現(xiàn)CPU之間的互聯(lián);其二是計(jì)算網(wǎng)絡(luò),主要進(jìn)行GPU節(jié)點(diǎn)數(shù)據(jù)的并行協(xié)同。
整體來(lái)看,智算網(wǎng)絡(luò)對(duì)于光互連的要求主要集中于三方面,即大帶寬、低成本和低延時(shí)。
光模塊與大帶寬的關(guān)系
數(shù)據(jù)鏈路帶寬方面,首先要實(shí)現(xiàn)的是GPU與GPU之間并行多路的通信,需要注意數(shù)據(jù)傳輸過程中鏈路帶寬的情況,在計(jì)算節(jié)點(diǎn)內(nèi)部互聯(lián)中一般可采用C2C Full mesh的方式,連接速率可達(dá)數(shù)百GB/s。
如要實(shí)現(xiàn)不同GPU出口的通信,則要通過PCle與網(wǎng)卡連接,在進(jìn)行串并轉(zhuǎn)化后進(jìn)而通過光模塊、計(jì)算網(wǎng)絡(luò)實(shí)現(xiàn)跨端口連接。因此,當(dāng)前許多廠家均在提倡光學(xué)輸入/輸出(OIO)的形式,以突破高速互聯(lián)的瓶頸,這也是當(dāng)下的一個(gè)發(fā)展方向。
在網(wǎng)絡(luò)設(shè)備/光模塊帶寬演進(jìn)方面,當(dāng)前智算網(wǎng)絡(luò)主要部署的是50G Serdes的交換機(jī)和光模塊,光模塊類型選擇則以200G/400G等為主。當(dāng)單節(jié)點(diǎn)容量達(dá)到51.2T時(shí),根據(jù)對(duì)網(wǎng)絡(luò)可拓展性的要求會(huì)去選擇不同的拓?fù)漕愋?,北美的一些廠家會(huì)選擇64x800G OSFP,國(guó)內(nèi)廠家則采用128x400G QSFP 112的封裝,但二者產(chǎn)業(yè)鏈?zhǔn)峭ㄓ玫摹?/p>
若未來(lái)單芯片交換容量達(dá)到102.4T,可插拔光模塊依然可以支持高密度大容量的光互連應(yīng)用,可以選擇64x1.6T OSFP和QSFP224-DD。。CPO也是熱門的解決方案之一,它要繼續(xù)解決可靠性的問題,還要解決建設(shè)部署中的可維護(hù)性問題。
如何降低光互連成本?
在降低光互連低成本問題中,硅基光子技術(shù)是潛在的降成本方案之一。硅光并非是全新的技術(shù),但就數(shù)據(jù)中心應(yīng)用而言是比較新的產(chǎn)品,當(dāng)前112G per lane模塊的供應(yīng)鏈上游集中于少量光器件廠家,因此硅光光模塊可以據(jù)此介入,以打破供應(yīng)緊張問題。
特別硅光模塊是可以覆蓋解決2km以內(nèi)的所有數(shù)據(jù)中心應(yīng)用場(chǎng)景需要的,因此京東也在進(jìn)行相應(yīng)的認(rèn)證等工作,相信不久的將來(lái)也能真正的部署到當(dāng)下網(wǎng)絡(luò)中。
線性直驅(qū)光模塊LPO/LRO當(dāng)前也是比較熱門的應(yīng)用方向,在112G per lane時(shí)代,借助于ASIC驅(qū)動(dòng)能力足夠強(qiáng)的特性,可以將光模塊作減法,即去掉DSP或CDR的部分,進(jìn)而可降低光模塊的復(fù)雜程度,以達(dá)到降低成本的目的。
但其也面臨了一些挑戰(zhàn),如兼容性與互聯(lián)互通的問題,要考慮ASIC芯片對(duì)其的支持情況、不同廠家間互聯(lián)情況、新舊模塊互聯(lián)互通的情況等等問題。
還有演化可持續(xù)性的問題也要考慮進(jìn)來(lái),如112G已可支持LPO,但如發(fā)展至224G等,就要考量LPO是否支持的可行性了。
智算網(wǎng)絡(luò)低延時(shí)問題
在低延時(shí)方面,如要實(shí)現(xiàn)整體協(xié)同的運(yùn)算保障,不同的計(jì)算節(jié)點(diǎn)間的GPU延時(shí)問題勢(shì)必會(huì)大大降低運(yùn)行效率,那么哪些因素通常會(huì)導(dǎo)致延時(shí)呢?
首先是基于協(xié)議,GPU的網(wǎng)絡(luò)最初基于InfiniBand(IB)的協(xié)議形式較多,在數(shù)據(jù)傳輸中可繞過CPU的參與,實(shí)現(xiàn)了不同計(jì)算節(jié)點(diǎn)間GPU緩存之間的數(shù)據(jù)通信,大大減少了基于協(xié)議的通信延時(shí)。
基于傳統(tǒng)以太的協(xié)議,則要CPU介入到通信整個(gè)過程,因此其延時(shí)會(huì)比較長(zhǎng)。
在智算網(wǎng)絡(luò)中用到的是一個(gè)較為折中的方案,即RDMA方案,可借用以太協(xié)議的封裝將RDMA的內(nèi)核封裝進(jìn)去,進(jìn)而實(shí)現(xiàn)共用以太網(wǎng)的設(shè)施以實(shí)現(xiàn)降低延時(shí)。
其次則是鏈路延時(shí),因?yàn)镚PU與GPU之間的通信要經(jīng)過leaf-spine架構(gòu),并要進(jìn)行光信號(hào)轉(zhuǎn)換,實(shí)現(xiàn)數(shù)據(jù)互聯(lián),其過程中各環(huán)節(jié)也必然產(chǎn)生各種不同的延時(shí)。
如在決策類模型的時(shí)延中,可優(yōu)化項(xiàng)為光模塊中的信號(hào)恢復(fù)單元導(dǎo)致的延時(shí)。而在生成式模型的延時(shí)中,主要是數(shù)據(jù)傳輸時(shí)間導(dǎo)致的延時(shí)為主,而物理鏈路導(dǎo)致的延時(shí)實(shí)際占比極小。因此,這時(shí)候系統(tǒng)延時(shí)會(huì)對(duì)帶寬利用率更為敏感,要根據(jù)模型不同去優(yōu)化延時(shí)的不同方向。
最后陳琤總結(jié)到,相較于傳統(tǒng)數(shù)通網(wǎng)絡(luò),智算網(wǎng)絡(luò)帶寬的增長(zhǎng)也會(huì)更迅速,低成本互聯(lián)有賴于新技術(shù)的支撐,如硅光、LPO/LRO等。另外,不同的模型對(duì)延時(shí)的要求是不一樣的,要優(yōu)化的方向會(huì)有所區(qū)別。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 國(guó)家發(fā)改委成立低空經(jīng)濟(jì)發(fā)展司
- 什么是人工智能網(wǎng)絡(luò)? | 智能百科
- 工信部:2025年推進(jìn)工業(yè)5G獨(dú)立專網(wǎng)建設(shè)
- 人工智能如何改變?nèi)蛑悄苁謾C(jī)市場(chǎng)
- 企業(yè)網(wǎng)絡(luò)安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報(bào)告:人工智能推動(dòng)數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報(bào)|馬斯克預(yù)測(cè):人工智能或?qū)⒊絾蝹€(gè)人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動(dòng)鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設(shè)被拉入軍采“黑名單”
- 大理移動(dòng)因違規(guī)套現(xiàn)等問題,擬被列入軍采失信名單
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。