5月24日消息(邵鵬慧)昨日,CIOE中國光博會與C114通信網(wǎng)聯(lián)合舉辦的“2024中國光通信高質(zhì)量發(fā)展論壇”第四場——“AI時代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”線上研討會順利召開。
阿里云光網(wǎng)絡(luò)技術(shù)專家陳欽應(yīng)邀作了題為《AI網(wǎng)絡(luò)對光互聯(lián)的需求和挑戰(zhàn)》的主題演講。陳欽表示,AI應(yīng)用帶來了海量的光模塊需求,未來GPU間的scale-up網(wǎng)絡(luò)將持續(xù)推高光模塊的需求,同時AI也催化了光模塊更新迭代的速度,對光模塊的穩(wěn)定性要求也進一步提高,AI對光模塊也帶來巨大的挑戰(zhàn),。
AI發(fā)展帶來海量光模塊新增需求
當(dāng)前,隨著AI和算力發(fā)展,作為數(shù)據(jù)中心內(nèi)部以及數(shù)據(jù)中心之間連接的重要技術(shù),光模塊產(chǎn)業(yè)快速崛起迎來高速發(fā)展時期,其速率和帶寬的提升對于滿足AI時代數(shù)據(jù)傳輸?shù)男枨笾陵P(guān)重要,AI網(wǎng)絡(luò)建設(shè)帶來海量的光模塊需求。
如何量化AI對光模塊的需求,陳欽介紹,在通用計算網(wǎng)絡(luò)中可以通過接入的服務(wù)器數(shù)量來獲得光模塊的需求量;同理在AI網(wǎng)絡(luò)中,可以通過GPU卡數(shù)量來推測光模塊的用量。
當(dāng)前AI網(wǎng)絡(luò)中,GPU卡和800G光模塊數(shù)量的比例約為1:3,未來,Scale-up GPU網(wǎng)絡(luò)(compute Fabric)將帶來更多的光互聯(lián)需求,光模塊的需求和光模塊的成本支出在AI集群中占比將大幅上升。
AI催化光模塊技術(shù)演進:光模塊迭代周期縮減一倍
回顧過去10年數(shù)據(jù)中心光模塊演進歷程,交換芯片的容量遵循每兩年翻一倍的規(guī)律,而這是通過Serdes 數(shù)量和Serdes 速率,每兩年交替的翻倍來達到的;
Serdes單通道速率和光模塊單波長速率實際上是每4年翻一倍,主流光模塊每4年更新一代。
AI的應(yīng)用催化了光互聯(lián)的演進速率,光模塊從原本每4年更新一代,縮短為每2年更新一代,新一代光模塊研發(fā)到落地的周期將要求被大幅縮短,這個變化對于整個光模塊生態(tài)而言都是一個極大的挑戰(zhàn)。
AI網(wǎng)絡(luò)對光互聯(lián)穩(wěn)定性提出兩方面挑戰(zhàn)
陳欽表示AI大模型訓(xùn)練對光互聯(lián)的穩(wěn)定性要求極高,當(dāng)前AI網(wǎng)絡(luò)穩(wěn)定性的挑戰(zhàn)主要來自兩方面。
一方面是光模塊硬件,主要是光器件失效引起的,包括激光器和探測器失效。陳欽介紹,光器件的Wear-out失效不是問題,早期失效和隨機失效才是關(guān)鍵。 當(dāng)前的行業(yè)標(biāo)準(zhǔn)GR468對光模塊和光芯片的測試標(biāo)準(zhǔn)太松,并不適用于AI網(wǎng)絡(luò)。鑒于此,阿里云對光器件的可靠性提出了更為嚴(yán)格的標(biāo)準(zhǔn)。
另一方面是光模塊軟件,高速光模塊普遍使用CMIS管理協(xié)議,帶來了強大的功能,但也使系統(tǒng)設(shè)備和模塊的交互變得更復(fù)雜。對此陳欽建議,光模塊廠家應(yīng)加強光模塊在各系統(tǒng)設(shè)備上的集成適配測試。
AI網(wǎng)絡(luò)下光模塊功耗挑戰(zhàn):TRO技術(shù)成為發(fā)展新方向
2018年 PAM4 DSP在光模塊中出現(xiàn),光的功耗開始超過電的功耗,成為網(wǎng)絡(luò)中功耗占比最高的部分,到1.6T/3.2T光模塊,數(shù)據(jù)中心將需要新的技術(shù)處理功耗問題,例如液冷技術(shù)。功耗的變化,將會給AI基礎(chǔ)設(shè)施帶來極大的技術(shù)挑戰(zhàn)。
那么應(yīng)該如何降低光模塊的功耗,陳欽表示最直接的手段就是去掉或減少DSP在光模塊內(nèi)部的使用,也就是被討論的技術(shù)熱點:LPO、TRO、CPO技術(shù)。
CPO光和交換芯片共封裝融為一體,是一種完全封閉的生態(tài),它不符合數(shù)據(jù)中心開放解耦的要求,也無法做到“pay as your growth”,此外CPO的運維也面臨重重挑戰(zhàn),所以CPO只有在可插拔光模塊演進不下去時才會被考慮。
LPO方案是完全去掉DSP,在功耗、成本和時延上有很大優(yōu)勢。但在標(biāo)準(zhǔn)化和互聯(lián)互通方面仍具有很大挑戰(zhàn)。若LPO無法做到互聯(lián)互通,便不符合數(shù)據(jù)中心對開放解耦的要求。此外,LPO技術(shù)到單波200G是否可持續(xù)也有較大爭論,綜合來看,LPO技術(shù)落地的挑戰(zhàn)性較大。
TRO去掉一半DSP,是一種折中的技術(shù)方案,它也能夠有效降低功耗,得益于ASIC Serdes接收端強大的均衡能力,TRO的鏈路性能可以得到保證,另外TRO也更容易制定標(biāo)準(zhǔn)和互聯(lián)互通,符合數(shù)據(jù)中心對開放解耦的要求,“TRO是一個非常有潛力的下一代光互聯(lián)技術(shù)方案”,陳欽表示。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 國家發(fā)改委成立低空經(jīng)濟發(fā)展司
- 什么是人工智能網(wǎng)絡(luò)? | 智能百科
- 工信部:2025年推進工業(yè)5G獨立專網(wǎng)建設(shè)
- 人工智能如何改變?nèi)蛑悄苁謾C市場
- 企業(yè)網(wǎng)絡(luò)安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報告:人工智能推動數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報|馬斯克預(yù)測:人工智能或?qū)⒊絾蝹€人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設(shè)被拉入軍采“黑名單”
- 大理移動因違規(guī)套現(xiàn)等問題,擬被列入軍采失信名單
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。