熱門資訊> 正文
2025-03-26 09:11
人們期待已久的新興計算機網絡組件可能終於迎來了它的時代。在上周於聖何塞舉行的Nvidia GTC活動上,該公司宣佈將生產一種光纖網絡交換機,旨在大幅降低 AI數據中心的功耗。該系統稱為共封裝光學器件(CPO)交換機,每秒可將數十兆比特的數據從一個機架中的計算機路由到另一個機架中的計算機。
如今,在數據中心中,計算機機架中的網絡交換機由專用芯片組成,這些芯片通過電氣方式與插入系統的光收發器相連(機架內的連接是電氣的,但有幾家初創公司希望改變這一現狀)。可插拔收發器結合了激光器、光電路、數字信號處理器和其他電子設備。它們與交換機建立電氣連接,並在交換機端的電子比特和沿光纖穿過數據中心的光子之間轉換數據。
共封裝光學器件是一種通過將光/電數據轉換儘可能靠近交換芯片來提高帶寬並降低功耗的方法。這簡化了設置,並通過減少所需的獨立組件數量和電子信號必須傳輸的距離來節省電力。先進的封裝技術使芯片製造商能夠用多個硅光收發器芯片包圍網絡芯片。光纖直接連接到封裝上。因此,除激光器外,所有組件都集成到一個封裝中,激光器保持外部,因為它們是使用非硅材料和技術製造的。(即便如此,CPO 只需要 Nvidia 硬件中每八個數據鏈路一個激光器。)
共封光學:很強,很難
儘管這項技術看起來很有吸引力,但其經濟性阻礙了它的部署。「我們一直在等待 CPO,」加州大學聖巴巴拉分校的聯合封裝光學專家、IEEE 研究員Clint Schow説,他已經研究這項技術 20 年了。談到 Nvidia 對這項技術的認可,他表示該公司「除非到了 [GPU 密集型數據中心] 無法承擔電力成本的時候,否則不會這麼做。」因為其所涉及的工程非常複雜,Schow 認為除非「舊方法被打破」,否則它是不值得的。
Omdia 數據中心計算和網絡專家 Manoj Sukumaran 對此舉充滿熱情,稱其為「真正的大事」。他告訴我們,共封裝光學器件是一項「醖釀已久」的技術。該技術、供應商和標準分散在各個小公司及其定製解決方案中。
「這項技術沒有標準化,因此即使在超大規模 CSP 中也沒有得到廣泛採用。
IDC EMEA 高級研究總監 Andy Buss表示,即便是今天,10G 以太網對於銅 RJ45 連接來説,每個端口的功耗仍然很高,而當我們以高數據速率使用當前的光收發器和可插拔模塊時,每個模塊的功耗是顯而易見的——而且隨着所需的網絡連接數量的增加,每個模塊的功耗會迅速增加,成為一個重要的耗電設備。每個收發器的功耗可能在 20W 到 40W 之間,所以這不是微不足道的——而且這不僅需要供電,還需要冷卻。
事實上,Nvidia 也將即將到來的 AI 數據中心的功耗作為其動機。Nvidia超大規模和高性能計算副總裁Ian Buck表示,可插拔光學器件消耗了 AI 數據中心「總 GPU 功耗的 10%」 。在一個擁有 40 萬個 GPU 的工廠中,這相當於 40 兆瓦,其中一半以上僅用於為可插拔光學收發器中的激光器供電。「擁有 40 萬個 GPU 的 AI 超級計算機實際上需要 24 兆瓦的激光器,」他説。
Jensen 在他的主題演講中強調了這一點。該公司聲稱功耗降低了 70%,從 1.6T 可插拔收發器的 30W 降低到每個 1.6T CPO 端口僅 9W。Nvidia的 CPO 基於新的微環調製器 (MRM),可額外提高功率效率。
不過,正如IDTechEx 所説,異構集成是共封裝光學器件 (CPO) 的關鍵,它使光學引擎 (OE)(包括光子 IC (PIC) 和電子 IC (EIC))與開關 ASIC 或 XPU 集成在單個封裝基板上。CPO 的封裝方法通常分為兩種:一種涉及光學引擎本身的封裝,另一種側重於光學引擎與 ASIC 或 XPU 等 IC 的系統級集成。這兩種方法都需要使用先進的 2.5D 和 3D 半導體封裝技術。
光子和電子元件的集成可以通過多種方法實現,每種方法都有不同的優點,也面臨着特定的挑戰。
2D 集成涉及將 PIC 和 EIC 並排放置在印刷電路板 (PCB) 上,並通過引線鍵合或倒裝芯片技術進行連接。這種方法的優點是封裝技術簡單、複雜度低、成本效益高。然而,缺點包括顯著的寄生電感,這會導致信號完整性問題和高能耗。此外,由於間距限制和對單邊連接的依賴,整體 I/O 功能被重組。總體而言,雖然 2D 集成相對容易封裝,但使用引線鍵合會限制收發器帶寬並增加能耗,使其不太適合高性能應用。
2.5D 集成通過將 EIC 和 PIC 安裝到配備硅通孔 (TSV) 的無源中介層上,提供了一種折中方案。該方法通過使用微凸塊或銅柱來減少 EIC 和 PIC 之間的封裝寄生效應,從而實現更高的 I/O 連接並實現更精細的佈線以增加帶寬。此外,中介層的使用允許加入波導層,這可以增強光信號重新分配並支持更好的信號完整性。然而,這種方法也帶來了一系列挑戰。與 2D 集成相比,2.5D 集成的開發和製造成本更高。此外,雖然 2.5D 集成在 2D 集成的基礎上有所改進,但它的寄生效應仍然高於 3D 集成,這會影響整體性能。
3D 混合集成採用更先進的方法,使用先進的半導體封裝技術(例如硅通孔 (TSV)、高密度扇出、Cu-Cu 混合鍵合或有源光子中介層(使用 PIC 作為中介層,如圖所示))將 EIC 堆疊在 PIC 之上。通常,3D 集成方法可顯著減少寄生效應並支持密集間距配置,從而提高性能。然而,管理散熱是一項挑戰,因為來自 EIC 的熱量會影響 PIC,因此需要先進的熱管理解決方案。
在這些不同的封裝方法中,硅通孔 (TSV) 技術因其在電力傳輸和通信效率方面的優勢而被視為集成 EIC 和 PIC 的關鍵技術之一。TSV 可最大限度地降低電壓降和電感,為關鍵組件提供可靠電力,同時縮短互連距離以改善通信。儘管由於硅的介電特性,高頻下存在信號完整性挑戰,但 TSV 更光滑的金屬表面有助於減輕趨膚效應,使其成為高級 EIC/PIC 集成的理想選擇。據思科稱,其第三代光學引擎採用了 3D TSV(硅通孔)先進封裝技術。TSV 的使用解決了電源完整性瓶頸問題,該瓶頸是由向高頻工作的 PIC 上的有源器件有效傳輸電力的挑戰以及 EIC 中有源器件數量的增加而引起的。
3D Cu-Cu 混合鍵合技術可支持個位數微米範圍內的凸塊間距,正成為最小化 EIC/PIC 接口寄生效應的關鍵解決方案。該技術已用於高端處理器,通過減少寄生效應提供顯著優勢,從而降低功耗並提高性能。臺積電通過其 SoIC 技術(品牌為 COUPE)推進這一方法,用於堆疊 EIC 和 PIC,旨在利用混合鍵合實現卓越的集成效率和性能。
3D 單片集成是最先進的技術,目前仍在開發中,它涉及將光子元件嵌入現有電子工藝節點,而改動極小。這種方法將有源光子和電子元件集成在同一芯片中,通過消除對接口焊盤和凸塊的需求,減少了寄生效應並簡化了封裝。然而,它通常依賴於較舊的 CMOS 工藝節點,這可能導致光子性能不佳和能耗較高。儘管存在這些限制,3D 單片集成仍可減少阻抗失配並簡化封裝。
隨着共封裝光學器件 (CPO) 成為高端數據中心的關鍵解決方案,封裝技術的選擇仍在積極討論和研究中。每種集成方法都有獨特的優勢和挑戰,不僅要考慮光學引擎的封裝,還要考慮涉及 IC(交換機 ASIC/XPU)和光學引擎共同設計的綜合系統集成。
英偉達的解決方案:真正瘋狂的技術
在主題演講中,黃仁勛表示:「將 GPU 擴展到數十萬個的挑戰在於橫向擴展的連接。當數據中心現在有體育場那麼大時,我們需要一些[新]東西 - 而這正是硅光子學的用武之地。」
他補充道:「硅光子學的挑戰在於收發器消耗大量能源。我們宣佈推出 Nvidia 首款共封裝 [光學] 硅光子系統。
「這是世界上第一個 1.6 Tb/s CPO,基於一種稱為微環調製器 (MRM) 的技術。它完全採用臺積電這種令人難以置信的工藝技術製造而成。」
黃仁勛將這一進展描述為「真正瘋狂的技術」,並將通常用於通過網絡交換機連接 GPU 的傳統 Mach-Zehnder 可插拔收發器與 Nvidia 的最新進展進行了比較。
他指出,如今每個 GPU 都需要六個獨立的收發器,這意味着每個 GPU 的功耗為 180 瓦,成本為 6000 美元。「問題是:我們現在如何擴展到數百萬個 GPU?」首席執行官説。「因為如果我們有 100 萬個 GPU,我們需要 600 萬個收發器,消耗 180 兆瓦。」
下圖顯示了所涉及的許多其他組件的概覽,首先是臺積電製造的電子和光子 IC,並以 3D 堆棧組裝。臺積電的緊湊型通用光子引擎 (COUPE) 技術包括一個用於表面耦合到光纖陣列的微透鏡。在 Quantum-X Photonic 平臺的情況下,光學引擎組件通過中介層連接到交換機 ASIC。
如下圖所示,Nvidia 的CPO 合作伙伴名單包括 Browave、Coherent、Corning、Fabrinet、Foxconn、Lumentum、Senko、SPIL、Sumitomo、TFC 和臺積電。當中,他們還深入介紹了與臺積電的合作。
在一段視頻,英偉達介紹了臺積電製造的「Quantum-X」封裝如何結合 18 個硅光子引擎,通過 36 個激光輸入實現 324 個光連接和 288 個數據鏈路。
六個可拆卸光學子組件連接到封裝,每個子組件包含三個硅光引擎,可提供 4.8 Tb/s 的總數據吞吐量。每個硅光引擎都具有一個 200 Gb/s MRM,採用臺積電的「 COUPE 」(緊湊型通用光子引擎)工藝製造,該工藝在 1000 個光子集成電路 (PIC) 上堆疊了 2.2 億個晶體管。
總體而言,與傳統的可插拔收發器方法相比,該方法可將功耗降低 3.5 倍。
黃仁勛在談到這一進展時表示:「這簡直是一個技術奇蹟」,並補充説,Nvidia 將在今年下半年開始出貨硅光子交換機,隨后在 2026 年下半年推出 Spectrum-X 產品。
他補充説,藉助英偉達過去五年來一直致力於研發的硅光子技術,數據中心可以節省「數十兆瓦」的電力消耗。
Lumentum 為新交換機提供激光器,該公司雲和網絡技術業務總裁 Wupen Yuen 評論道:「大幅降低網絡功耗的創新將擴大光子元件市場,支持更大的人工智能安裝,並加速從銅到光子互連的過渡。」
Coherent 首席執行官 Jim Anderson 在自己的公告中補充道:「我們很高興能成為 Nvidia 在這種新型收發器方面的合作伙伴。我們預計 CPO 將進一步加速數據中心光纖網絡的擴展。」
Nvidia 網絡高級副總裁 Gilad Shainer 表示,Nvidia 與 Lumentum 和 Coherent 在激光器和硅光子學方面的合作將實現下一代「百萬級人工智能」。
「通過將硅光子學直接集成到交換機中,Nvidia 打破了超大規模和企業網絡的舊限制,並打開了百萬 GPU AI 工廠的大門。」
Nvidia 表示,在新的 AI 數據中心採用 CPO 交換機將使激光器數量減少四分之一,數據傳輸的功率效率提高3.5 倍,使信號從一臺計算機準時傳輸到另一臺計算機的可靠性提高 63 倍,使網絡抵禦中斷的能力提高 10 倍,並允許客户以更快 30% 的速度部署新的數據中心硬件。
該公司計劃推出兩類交換機,Spectrum-X 和 Quantum-X。Quantum-X 將於今年晚些時候上市,它基於Infiniband網絡技術,這是一種更面向高性能計算的網絡方案。它從 144 個端口中的每一個端口提供 800 Gb/s 的速度,它的兩個 CPO 芯片採用液冷而不是風冷,越來越多的新 AI 數據中心也採用這種冷卻方式。網絡ASIC包括 Nvidia 的SHARP FP8技術,該技術允許 CPU 和 GPU 將某些任務卸載到網絡芯片上。
Spectrum-X 是一款基於以太網的交換機,可通過總共 128 或 512 個端口提供約 100 Tb/s 的總帶寬,並通過 512 或 2048 個端口提供 400 Tb/s 的總帶寬。預計硬件製造商將在 2026 年準備好 Spectrum-X 交換機。
Nvidia 多年來一直致力於基礎光子技術的研究。但它需要與臺積電、康寧和富士康等 11 家合作伙伴合作,才能將這項技術推向商業化階段。
Nvidia 光學互連產品總監 Ashkan Seyedi 強調,這些合作伙伴帶來的技術必須共同優化以滿足 AI 數據中心的需求,而不是簡單地從這些合作伙伴現有的技術中組裝起來。
「CPO 帶來的創新和節能效果與你的封裝方案、封裝合作伙伴和封裝流程密切相關,」Seyedi 説道。「創新之處不僅僅在於光學元件本身,還在於它們如何以高產、可測試的方式進行封裝,從而讓你能夠以合理的成本進行管理。」
測試尤為重要,因為該系統集成了許多昂貴的組件。例如,Quantum-X 系統的兩個 CPO 中各有 18 個硅光子芯片。每個芯片都必須連接到兩個激光器和 16 根光纖。Seyedi 表示,團隊必須開發幾種新的測試程序才能確保測試正確,並追蹤錯誤出現的位置。
Nvidia 並不是唯一一家推出採用同封裝光學器件的網絡交換機的公司。博通也是當中一個重要玩家。
光調製器:英偉達和博通的根本區別
Micas Networks本周宣佈推出 51.2T 產品,該產品基於 Broadcom 的 51.2 Tbps Bailly CPO 交換機平臺,提供 128 個 400G 以太網端口。
Broadcom 的 CPO 提供了 50% 的功耗降低(通過移除 DSP),但它基於 Mach-Zehnder 調製器 (MZM)——光收發器中的標準組件。
博通光學系統部門產品營銷高級經理羅伯特·漢娜 (Robert Hannah)解釋説,博通為其Bailly CPO 交換機選擇了更為成熟的 Mach-Zender 調製器,部分原因是它是一種更為標準化的技術,可能更容易與現有的可插拔收發器基礎設施集成。
Micas 的系統使用單個 CPO 組件,該組件由 Broadcom 的Tomahawk 5 以太網交換機芯片和八個 6.4 Tb/s 硅光子光學引擎組成。該風冷硬件現已全面投入生產,領先於 Nvidia 的 CPO 交換機。
漢娜稱 Nvidia 的參與是對 Micas 和博通時機的認可。「幾年前,我們決定滑向冰球將要到達的地方,」 Micas 首席運營官米奇·加爾佈雷斯(Mitch Galbraith) 表示。他説,隨着數據中心運營商爭相為其基礎設施提供動力,CPO 的時代似乎已經到來。
與使用標準可插拔收發器的系統相比,這款新交換機有望節省 40% 的功耗。不過, Micas 公司企業戰略副總裁Charlie Hou表示,CPO 更高的可靠性同樣重要。「鏈路抖動」是指可插拔光纖鏈路的瞬時故障,是導致已經非常長的 AI 訓練運行時間延長的罪魁禍首之一,他説。CPO 預計鏈路抖動會更少,因為信號路徑中的組件更少,還有其他原因。
如上所述,Broadcom 的方案與 Nvidia 的方案之間的一個根本區別是光調製器技術,該技術將電子比特編碼到光束上。硅光子學中主要有兩種類型的調製器 - Mach-Zender(Broadcom 所採用的並且是可插拔光學器件的基礎)和微環諧振器(Nvidia 所選擇的)。在前者中,穿過波導的光被分成兩個平行的臂(arm)。然后,每個臂可以通過施加的電場進行調製,從而改變通過的光的相位。然后,這兩個臂重新連接形成單個波導。根據兩個信號現在是否同相或異相,它們將相互抵消或合併。因此,電子比特可以編碼到光上。
微環調製器要緊湊得多。它不是將光沿着兩條平行路徑分開,而是在光的主路徑一側懸掛一個環形波導。如果光的波長可以在環中形成駐波,它將被抽走,從而將該波長從主波導中過濾掉。究竟哪種波長與環產生共振取決於結構的折射率,而折射率可以通過電子方式進行操控。
然而,微環的緊湊性是有代價的。微環調製器對温度敏感,因此每個調製器都需要內置加熱電路,必須小心控制加熱電路,而且會消耗電力。另一方面,Mach-Zender 設備要大得多,導致更多的光損失和一些設計問題,Schow 説。
Schow 表示,Nvidia 成功將基於微環的硅光子引擎商業化是「一項了不起的工程壯舉」。
未來的 CPO
Schow 表示,大型數據中心希望從 CPO 獲得的節能效果主要是一次性的。之后,「我認為這將成為新常態。」不過,電子設備其他功能的改進將使 CPO 製造商能夠繼續提高帶寬——至少在一段時間內。
Schow 懷疑單個硅調製器(在 Nvidia 的光子引擎中以 200 Gb/s 的速度運行)能否超過 400 Gb/s。不過,其他材料(如鈮酸鋰和磷化銦)應該能夠超過這個速度。關鍵在於以可承受的價格將它們與硅元件集成在一起,聖巴巴拉的OpenLight等團體正在研究這個問題。
與此同時,可插拔光學器件也並非一成不變。本周,博通推出了一款新型數字信號處理器,該處理器可使 1.6 Tb/s 收發器的功耗降低 20% 以上,部分原因在於採用了更先進的硅工藝。
Avicena、Ayar Labs和Lightmatter等初創公司正在努力將光學互連引入 GPU 本身。前兩家公司已經開發出可以與 GPU 或其他處理器裝入同一封裝中的芯片。Lightmatter 更進一步,將硅光子引擎作為未來芯片 3D 堆疊的封裝基板。
知名光學分析機構lightcounting在其文章中表示,橫向擴展網絡是低風險的 CPO 切入點,但縱向擴展光纖互連更為關鍵。混合專家 (MoE) 模型的快速響應時間需要專家並行性,即跨 GPU 劃分專家。Jensen 解釋了吞吐量和響應時間之間的權衡,他的示例展示了一個最佳點,即需要專家並行 64,這意味着專家被劃分到 64 個 GPU 實例中。Blackwell 一代 NVL72 機架使用 NVLink 在無源銅背板(或主干)上創建了一個 72-GPU 縱向擴展域。Nvidia 將在 2H26 中為 Vera Rubin NVL144 使用類似的設計,可能會將無源電纜的數量增加一倍。
Nvidia隱瞞了 Rubin Ultra NVL576 設計的細節,但 Kyber 機架佈局顯然為 NVLink 互連引入了新的要求。儘管如此,144 個 GPU 封裝仍可裝入單個機架中,因此最大覆蓋範圍約為 2 米。路線圖省略了 Feynman 預期的 NVLink 規模,但我們相信它將擴展到多個機架,屆時將需要光學器件。
Nvidia在 GTC 2022 上首次宣佈了通過光纖實現 NVLink 的計劃。該公司在內部構建了至少一個這樣的集羣,但重定時光收發器的高功耗對於廣泛部署來説是不可能的。消除 DSP 是向前邁出的一步,但需要為未來的改進開闢道路。這就是 Nvidia 冒險使用 MRM 等新技術的原因。考慮到擴展能力的重要性,該公司可能正在研究廣泛的新光學技術。NVLink
CPO 的 2028 年時間表為 Nvidia 提供了兩代人在橫向擴展網絡中證明其技術的機會。這將降低 GPU 不可避免地轉向 CPO 的風險,這只是時間問題,而不是是否的問題。
參考鏈接
https://spectrum.ieee.org/co-packaged-optics