北京時(shí)間8月14日消息(水易)國際光電委員會(huì)(IPEC)致力于促進(jìn)關(guān)于人工智能集群新一代光互連的行業(yè)討論。最近一次的網(wǎng)絡(luò)研討會(huì)的主題是“AI集群中光器件的特殊要求”。光通信市場研究機(jī)構(gòu)LightCounting對這一次研討會(huì)的亮點(diǎn)內(nèi)容進(jìn)行了提煉。
Arista聯(lián)合創(chuàng)始人Andy Bechtolsheim對GPU性能進(jìn)行了預(yù)測。如下圖所示,利用CMOS、基板/封裝方法、芯片架構(gòu)和更好的冷卻技術(shù)的進(jìn)步,從2022年到2028年,GPU性能預(yù)計(jì)將提高100倍。
Andy Bechtolsheim的時(shí)間線一如既往的非常激進(jìn),所有這些新技術(shù)的量產(chǎn)可能需要十年時(shí)間。最近有關(guān)英偉達(dá)/臺(tái)積電用于封裝Blackwell GPU的新CoWoS技術(shù)問題的傳言說明了將新技術(shù)轉(zhuǎn)化為大規(guī)模生產(chǎn)是多么具有挑戰(zhàn)性。
管理這些超大型芯片組件的散熱是眾多問題中的一個(gè)。人工智能集群中使用的所有技術(shù)都必須制定提高能效的路線圖。CMOS確實(shí)有一個(gè)在5年內(nèi)從5nm發(fā)展到3nm和2nm的路線圖,但光互連仍在尋找提高能效的途徑。
Andy Bechtolsheim介紹了當(dāng)前重定時(shí)、LRO和LPO 1.6T (8x200G)光模塊的功耗估算,如下圖所示。重新定時(shí)(DSP)模塊的功耗為30W,是800G模塊的2倍多。LPO和/或LRO確實(shí)提供了提高能效的途徑,但目前還不清楚它們是否能在每通道200G的情況下工作。Andy 評論說,只要有干凈的電氣通道,224G LPO就能工作,但它還需要高性能銅纜、高性能TIA和線性驅(qū)動(dòng)器。
Andy Bechtolsheim還提到,112G LPO MSA已接近完成,應(yīng)該會(huì)在9月份的ECOC之前發(fā)布,互操作將于8月舉行。到2025年,一些供應(yīng)商將準(zhǔn)備好批量交付LPO。
問題是:是否有客戶準(zhǔn)備部署LRO或LPO?
目前來看,字節(jié)跳動(dòng)是認(rèn)真考慮8x100G LPO的潛在客戶之一。根據(jù)LightCounting的估計(jì),字節(jié)跳動(dòng)將在2024年成為中國云計(jì)算公司中第二大光模塊消費(fèi)者,并有可能在2025年成為第一大光模塊消費(fèi)者。
字節(jié)跳動(dòng)的Yinxing Zhang展示了大量LPO測試結(jié)果,證明了1E-6規(guī)范的Pre-FEC BER測試有助于保證整個(gè)溫度范圍內(nèi)的鏈路性能。FEC將為通過Pre-FEC BER測試的光模塊性能增加余量。
他還表示,需要對VCSEL和光模塊/AOC設(shè)計(jì)進(jìn)行優(yōu)化,以提高Pre-FEC BER測試的良率,但他對2025年-2026年部署 8x100G LPO持樂觀態(tài)度。此外,字節(jié)跳動(dòng)并不急于轉(zhuǎn)向每通道200G,至少現(xiàn)在還沒有。
LightCounting預(yù)計(jì),英偉達(dá)將在今年晚些時(shí)候測試每通道200G的LRO和LPO,并可能在 2025年進(jìn)行少量部署。如果這些技術(shù)都不成功,CPO將是英偉達(dá)依賴的另一種選擇。英偉達(dá)還將放棄基于VCSEL的SR8光模塊,但字節(jié)跳動(dòng)和許多其他客戶將在未來多年部署這些光模塊。
博通公司的Manish Mehta討論了CPO的進(jìn)展,并介紹了與云暉科技(Cloud Light)合作開發(fā)的SR8 LRO光模塊的最新測試數(shù)據(jù),如下圖所示。他還討論了面向人工智能應(yīng)用的SMF雙向光模塊的設(shè)計(jì),這項(xiàng)技術(shù)已在FTTx光模塊中使用了20多年。Manish還回顧了博通公司(Avago/Agilent)30年的光模塊制造歷史,其中包括10萬億可靠性記錄<1FIT的現(xiàn)網(wǎng)設(shè)備小時(shí)數(shù)。
Meta公司的Drew Alduino介紹了有關(guān)硬件故障如何影響人工智能集群運(yùn)行的數(shù)據(jù)。單個(gè) GPU或網(wǎng)絡(luò)鏈接故障可使整個(gè)集群的效率降低40%,緩解故障(通過軟件)可能需要10分鐘,這種故障平均每30-45分鐘發(fā)生一次。對于基于更復(fù)雜GPU和光器件的大型集群來說,問題會(huì)變得更加嚴(yán)重。
他還分享了200G FR4和400G FR4模塊的故障分析數(shù)據(jù),如下所示。直接調(diào)制激光器性能下降是200G模塊出現(xiàn)故障的主要原因。與一般制造問題(PCBA和引線鍵合)相比,400G光模塊中使用的EML性能退化問題較小。他建議,使用更簡單、更集成的設(shè)計(jì)將有助于減少這些故障。從這個(gè)角度看,LPO和CPO都是業(yè)界探索的正確方向,這不僅能降低功耗,還能提高可靠性。
華為的Eric Bernier還討論了提高可靠性的方法。除了優(yōu)化整個(gè)光模塊或集成芯片的光電設(shè)計(jì)和提高光源效率外,基于激光陣列的更高功率光源也會(huì)有所幫助。如果一個(gè)激光器出現(xiàn)故障,陣列中的其他激光器可以產(chǎn)生更大的功率,彌補(bǔ)故障激光器的不足。
其他發(fā)言人包括 Quintessent公司的Cris Cole,他介紹了有關(guān)硅基量子點(diǎn)激光器可靠性提高100倍的更多數(shù)據(jù)。英特爾公司的Christian Urricariet分享了有關(guān)異質(zhì)集成激光器極高可靠性(<0.1FIT)的數(shù)據(jù)。Ranovus公司的Jeff Hutchins認(rèn)為,只有高度集成的CPO 解決方案才能滿足人工智能集群的可靠性要求。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- GTI 5G-A×AI融通發(fā)展項(xiàng)目 “智網(wǎng)慧城”計(jì)劃全球招募正式啟動(dòng)
- 華為提出“四新”戰(zhàn)略,助力運(yùn)營商實(shí)現(xiàn)數(shù)智時(shí)代商業(yè)成功
- 華為王雷:星河AI網(wǎng)絡(luò)全面商用,加速運(yùn)營商新增長
- 華為提出構(gòu)建以AI為中心的F5G-A全光網(wǎng),助力運(yùn)營商新增長
- 華為汪濤:AI加速超寬帶產(chǎn)業(yè)創(chuàng)新,共贏商業(yè)新增長
- 移遠(yuǎn)通信:國內(nèi)業(yè)務(wù)持續(xù)復(fù)蘇 利潤逐步修復(fù)
- 韓國《量子科技和量子產(chǎn)業(yè)促進(jìn)法》正式生效
- 中國移動(dòng)啟動(dòng)5G專網(wǎng)深度定制產(chǎn)品短名單第一次增補(bǔ)采購:總預(yù)算13.5億元
- 十二部門:探索核技術(shù)在量子計(jì)算等未來產(chǎn)業(yè)中的交叉應(yīng)用
- 報(bào)告稱2024Q3智能手機(jī)Top10:三星蘋果前2,中國廠商占8席
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。