上海交大諸葛群碧:智算中心光互聯(lián)技術(shù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)

文章作者

諸葛群碧,上海交通大學(xué)長(zhǎng)聘副教授,2024年CIOE中國(guó)光博會(huì)《智算中心光技術(shù)創(chuàng)新發(fā)展論壇》主席和主持人。

本文系諸葛教授基于論壇嘉賓的分享內(nèi)容對(duì)智算中心光互聯(lián)技術(shù)的發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)的梳理和思考。

01 AI需求激增,光通信迎來(lái)又一歷史性機(jī)遇

AI大模型訓(xùn)練的驅(qū)動(dòng)下,GPU集群的算力需求爆發(fā)式增長(zhǎng)。光互聯(lián)在構(gòu)建智算中心萬(wàn)卡集群中起到關(guān)鍵作用,因此高速光模塊的需求在近兩年增長(zhǎng)十分迅猛。根據(jù)Cignal AI的最新統(tǒng)計(jì),2023年至今,400GbE+光模塊的發(fā)貨量年均增長(zhǎng)率達(dá)到了驚人的350%,而此前數(shù)年的年均復(fù)合增長(zhǎng)率“僅”為84%。2024年第一季度發(fā)貨約350萬(wàn)只,預(yù)計(jì)2024年總數(shù)將超過(guò)1400萬(wàn)只。

AI算力驅(qū)動(dòng)的另一變化是光互聯(lián)代際更迭大幅加速。據(jù)Cignal AI預(yù)測(cè),800G光模塊將從2023年的100萬(wàn)只躍升至2024年的900+萬(wàn)只。隨后,AI需求將快速催熟1.6T光模塊的商用,預(yù)計(jì)在2028年接近甚至超過(guò)400G和800G的數(shù)量總和。另一方面,單個(gè)數(shù)據(jù)中心的供能和面積將不足以支撐AI的持續(xù)發(fā)展,因此需要建設(shè)更多的數(shù)據(jù)中心,構(gòu)建跨數(shù)據(jù)中心的AI算力設(shè)施,這將促進(jìn)可插拔相干光模塊的需求和發(fā)展。

根據(jù)Cignal AI的數(shù)據(jù),至2025年,400ZR相干光模塊四年間增長(zhǎng)約10倍。從2024年起,800ZR將逐漸商用并快速增長(zhǎng),而1600ZR的商用將從2027年開(kāi)始。AI時(shí)代的到來(lái),使光通信行業(yè)進(jìn)入了又一個(gè)春天,欣欣向榮、蓬勃發(fā)展。在技術(shù)層面,過(guò)去數(shù)十年的發(fā)展已使得光互聯(lián)眾多技術(shù)進(jìn)入了深水區(qū),為滿足AI算力的迫切需求,整個(gè)行業(yè)需要在研發(fā)上大力投入來(lái)突破一系列技術(shù)瓶頸。

02 數(shù)據(jù)中心內(nèi)光互聯(lián)技術(shù)

當(dāng)前的商用高速光模塊主要采用4×100G(400G)、8×100G(800G)、4×200G(800G)和8×200G(1.6T)的系統(tǒng)架構(gòu),封裝形式以QSFP-DD、OSFP和OSFP-XD為主。SerDes單通道速率已達(dá)到200G,與光口實(shí)現(xiàn)匹配。下一階段的主要目標(biāo)是實(shí)現(xiàn)單波400G光互聯(lián)技術(shù),支撐構(gòu)建下一代1.6T和3.2T光模塊,主要技術(shù)挑戰(zhàn)包括器件帶寬、DSP功耗、鏈路損傷(色散、四波混頻、多徑串?dāng)_)等。

另一方面,由于大模型訓(xùn)練基于萬(wàn)卡同步展開(kāi),AI集群對(duì)光模塊的可靠性提出了極其嚴(yán)苛的要求。傳統(tǒng)模塊中的半導(dǎo)體激光器已相對(duì)可靠,然而AI應(yīng)用要求其可靠性再提高近百倍。光模塊故障預(yù)測(cè)、識(shí)別、定位能力也變得十分關(guān)鍵。在系統(tǒng)層面,基于多通道并行架構(gòu)的光模塊,可以利用彈性通道技術(shù),快速隔離故障通道,大幅提升針對(duì)單通道故障的可靠性。

在51.2T交換機(jī)中,光模塊功耗占比接近50%,而光模塊中DSP功耗占比超50%。為緩解光模塊(特別是1.6T/3.2T模塊)的功耗問(wèn)題,業(yè)界提出了線性直驅(qū)方案(LPO),近年來(lái)受到高度關(guān)注。該方案去除了光模塊中的DSP,使用SerDes中的信號(hào)處理單元來(lái)補(bǔ)償光器件和光鏈路中的各類(lèi)損傷,并在Driver和TIA中集成CTLE和EQ均衡,來(lái)彌補(bǔ)DSP能力的缺失。據(jù)估計(jì),未來(lái)的3.2T光模塊中,LPO有望將光模塊功耗從40W(DSP2nm方案)降低到20W。

此外,LPO可大幅降低時(shí)延,更適配AI算力場(chǎng)景。LPO光模塊的成本也相對(duì)較低(據(jù)測(cè)算,800G光模塊總成本可降低約8%)。與DSP方案相比,LPO的缺點(diǎn)是光傳輸性能下降(即傳輸距離縮短),不同模塊互聯(lián)互通困難,同時(shí)光模塊能提供的故障診斷信息有限,降低了系統(tǒng)的可維護(hù)性。因此,面向單通道200G+系統(tǒng),今年業(yè)界又提出了LRO(也叫TRO)方案。該方案取了折中,在發(fā)射端保留DSP來(lái)對(duì)發(fā)射光信號(hào)進(jìn)行預(yù)處理,在接收端仍采用無(wú)DSP的線性輸出,部分彌補(bǔ)了LPO方案的缺點(diǎn),同時(shí)還能實(shí)現(xiàn)了可觀的功耗收益。

更長(zhǎng)遠(yuǎn)來(lái)看,分別面向交換機(jī)互聯(lián)和芯片級(jí)互聯(lián),光電合封(CPO)和光I/O(OIO)在關(guān)鍵指標(biāo)上具有顯著優(yōu)勢(shì),但受技術(shù)、產(chǎn)業(yè)鏈、標(biāo)準(zhǔn)等限制,大規(guī)模商用還有待時(shí)日。

在光芯片方面,當(dāng)前的高速(400G+)光模塊主要采用VCSEL、EML和硅光芯片。VCSEL在功耗和成本上具有顯著優(yōu)勢(shì),然而由于帶寬受限和多模特性,主要應(yīng)用于百米以?xún)?nèi)的距離,且單通道200G技術(shù)尚未成熟(2024年OFC已有公司進(jìn)行Demo)。EML和硅光芯片的帶寬已滿足單通道200G應(yīng)用。硅光芯片在物料成本、工藝、集成度、光源數(shù)量、性能穩(wěn)定性等方面都具有優(yōu)勢(shì),多年來(lái)一直受到行業(yè)追捧。

另外,硅光調(diào)制器具有良好的線性度,更適配LPO系統(tǒng)。然而硅光的發(fā)展還面臨著一系列挑戰(zhàn),如硅的傳輸損耗和帶寬瓶頸,與電芯片、光纖和光源的連接、產(chǎn)業(yè)鏈標(biāo)準(zhǔn)化等。據(jù)預(yù)測(cè),硅光模塊的占比在未來(lái)幾年會(huì)快速提升,達(dá)到一個(gè)可觀的比例。在下一代的單通道400G系統(tǒng)中,信號(hào)波特率超過(guò)200Gbaud,要求器件帶寬在100GHz以上,除EML,薄膜鈮酸鋰器件也受到廣泛關(guān)注。

03 數(shù)據(jù)中心間光互聯(lián)技術(shù)

智算中心的發(fā)展也提升了數(shù)據(jù)中心間互聯(lián)(DCI)帶寬的需求。DCI傳輸距離可達(dá)百公里級(jí),需要使用基于相干光通信架構(gòu)的密集波分復(fù)用系統(tǒng)。相干系統(tǒng)具有高譜效率、高性能等優(yōu)勢(shì)。自2008年北電發(fā)布首款相干光收發(fā)機(jī)(40G)以來(lái),相干系統(tǒng)快速演進(jìn),目前商用系統(tǒng)的單波最高速率已達(dá)到1.6T,采用3nm工藝和100GHz光電子器件。在單纖容量方面,C+L雙波段系統(tǒng)已成功實(shí)現(xiàn)商用,使光纖可用頻譜達(dá)到了12 THz,可支撐近百T容量。與長(zhǎng)途應(yīng)用相比,百公里級(jí)的DCI場(chǎng)景對(duì)成本、功耗、體積有著更高的要求,因此催生了可插拔相干光模塊(ZR系列)。

400ZR目前已大規(guī)模商用,800ZR和1600ZR的標(biāo)準(zhǔn)化也在快速推進(jìn)中。ZR系列的速率演進(jìn)受成本、功耗和體積的約束,相對(duì)長(zhǎng)途系統(tǒng)有一定滯后,1.6T的部署預(yù)計(jì)從2027年啟動(dòng)。在AI應(yīng)用對(duì)光互聯(lián)速率的驅(qū)動(dòng)下,相干系統(tǒng)往更短距離的下沉得到了提速。目前看來(lái)相干系統(tǒng)有望下沉到10公里場(chǎng)景,在1.6T/3.2T應(yīng)用中與直調(diào)直檢系統(tǒng)展開(kāi)競(jìng)爭(zhēng)。然而,由于在成本和功耗上的劣勢(shì),只要直調(diào)直檢系統(tǒng)能解決傳輸距離問(wèn)題,相干系統(tǒng)若想實(shí)現(xiàn)替代還需要在技術(shù)上有質(zhì)的突破。DCI系統(tǒng)對(duì)時(shí)延也十分敏感,與實(shí)芯光纖相比,空芯光纖可將鏈路傳輸時(shí)延降低1/3,在DCI應(yīng)用中潛力巨大。

此外,空芯光纖還具有超寬譜、超低損和超低非線性的潛在優(yōu)勢(shì),是近年來(lái)光通信領(lǐng)域的研究熱點(diǎn),但是其大規(guī)模部署還需要解決眾多的技術(shù)和工程化問(wèn)題。

DCI波分系統(tǒng)的管控和運(yùn)維是保障智算中心高效運(yùn)行的關(guān)鍵環(huán)節(jié)。自動(dòng)駕駛光網(wǎng)絡(luò)、智慧光網(wǎng)、數(shù)字孿生、數(shù)字光層等一系列概念成為近年來(lái)的研究熱點(diǎn)。業(yè)界期望在光網(wǎng)絡(luò)的全生命周期中(含設(shè)計(jì)規(guī)劃、建設(shè)交付和運(yùn)營(yíng)維護(hù))都實(shí)現(xiàn)智能化管理。其中,實(shí)現(xiàn)秒級(jí)甚至毫秒級(jí)的全參量系統(tǒng)性能監(jiān)測(cè)和數(shù)據(jù)采集是智能運(yùn)維的基石。

另外,對(duì)鏈路物理?yè)p傷如光纖非線性效應(yīng)、光放大噪聲、光濾波損傷、光偏振效應(yīng)等的數(shù)字化建模也十分關(guān)鍵。在實(shí)現(xiàn)光物理層數(shù)字孿生的基礎(chǔ)上,可以研發(fā)智能算法來(lái)實(shí)現(xiàn)光網(wǎng)絡(luò)的自動(dòng)控制、優(yōu)化和故障處理等。由于DCI對(duì)可靠性有著極高的要求,在網(wǎng)絡(luò)的控制過(guò)程中如何實(shí)現(xiàn)全局風(fēng)險(xiǎn)管控是一大關(guān)鍵。在C+L系統(tǒng)中,因?yàn)榇嬖趪?yán)重的受激拉曼散射(SRS)效應(yīng),系統(tǒng)會(huì)引入假光填充,波道間的管控變得極為復(fù)雜,是接下來(lái)業(yè)界的研究重點(diǎn)。在未來(lái)采用拉曼和EDFA混合放大的高性能系統(tǒng)中,光物理層調(diào)控的復(fù)雜度也會(huì)進(jìn)一步提升。業(yè)界期待AI技術(shù)在自動(dòng)駕駛光網(wǎng)絡(luò)中發(fā)揮關(guān)鍵作用。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-10-18
上海交大諸葛群碧:智算中心光互聯(lián)技術(shù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì)
上海交大諸葛群碧:智算中心光互聯(lián)技術(shù)發(fā)展現(xiàn)狀與未來(lái)趨勢(shì),文章作者諸葛群碧,上海交通大學(xué)長(zhǎng)聘副教授,2024年CIOE中國(guó)光博會(huì)《智算中心光技術(shù)創(chuàng)新發(fā)展論壇》

長(zhǎng)按掃碼 閱讀全文