4 月 17 日下午,“超大規(guī)模智算中心:1.6T 時代的全光互連”研討會舉辦,探討了智算中心內(nèi)光互連的相關(guān)問題。
隨著 AI 技術(shù)的發(fā)展,全球人工智能基礎(chǔ)設(shè)施市場規(guī)模持續(xù)增長,對用于數(shù)據(jù)中心光互聯(lián)的高速數(shù)通光模塊需求顯著增長。在此背景下,研討會展示了光互連技術(shù)的最新進展情況,介紹了未來發(fā)展趨勢, 推動了智算中心互連技術(shù)的創(chuàng)新發(fā)展。
阿里巴巴集團技術(shù)專家王鵬在研討會上發(fā)表主題演講。他表示,AI 已成光通信技術(shù)演進的核心驅(qū)動力,光模塊作為基礎(chǔ)設(shè)施中的“高速公路”,對其數(shù)量和帶寬的提升均有強烈訴求,2025 年持續(xù)保持強勢增長勁頭。滿足智算中心的光模塊具有幾大特質(zhì):高速率高帶寬、低功耗、低時延、低成本,以及高交付能力和高穩(wěn)定性。
王鵬還談到了光模塊技術(shù)方面的幾個要點:一是光模塊隨著速率提升,功耗也在提升,低功耗設(shè)計因而非常重要。二是智算中心在 GPU 服務(wù)器部署后,需要光模塊快速完成部署,避免設(shè)備折損浪費。三是智算中心對鏈路抖動更加敏感,對光模塊的穩(wěn)定性提出了更高要求。
具體到光模塊技術(shù)方面,ISP 服務(wù)商要具備多種技術(shù)方案評估的能力、芯片方案選型的能力、快速迭代技術(shù)方案的能力;在交付方面,具備突發(fā)需求供應(yīng)和大規(guī)模交付能力;在運營方面,具備千萬級光模塊運營的能力,包括建立優(yōu)勝劣汰機制,選擇可靠性更優(yōu)的模塊技術(shù)、型號和廠家。
在演講中,王鵬介紹了阿里云的光模塊演進路標(biāo)。從 2014 年設(shè)計 40G 光模塊,到 2017 年批量交付 100G 光模塊,2021 年和 2022 年,阿里云實現(xiàn)傳統(tǒng)數(shù)據(jù)中心和智算中心的 200G 光模塊批量交付。2023 年,400G 光模塊批量交付。預(yù)計 2025 年在智算中心導(dǎo)入 800G 光模塊,2026 年開始導(dǎo)入 1.6T 光模塊。
在光模塊技術(shù)方案上,阿里云在 400G 及以下速率,多模用量大于單模用量,主要采用 VCSEL/SiPh/EML 方案,LPO 小批量部署。800G 繼續(xù)采用 VCSEL/SiPh/EML 方案,并儲備 LPO/LRO 技術(shù)。到 1.6T,預(yù)計單模成為主流應(yīng)用,以 SiPh 和 EML 方案為主。王鵬補充,1.6T 光模塊主要解決四個挑戰(zhàn),一是功耗和系統(tǒng)散熱,二是高速設(shè)計和制造,三是可靠性,四是供應(yīng)和成本。
王鵬最后總結(jié),在光模塊領(lǐng)域,阿里云將聚焦