熱門資訊> 正文
2025-10-14 09:36
近日,博通宣佈其Tomahawk 6 - Davisson(或TH6-Davisson)產品現已上市。這意義重大,因為這是一款共封裝光纖 (CPO) 以太網交換機,可提供驚人的 102.4 Tb/s。而且,隨着它的出現,它將共同封裝的光器件帶入了下一代網絡。
在本月初,該公司宣佈其共封裝光學器件(CPO)的質量和可讀性達到業界領先水平。博通與Meta合作,其CPO技術累計實現了100萬小時400G等效端口設備「無抖動」運行。這一里程碑驗證了博通CPO平臺的成熟度、可靠性和生產就緒性,可用於支持人工智能和雲基礎設施的下一代超大規模數據中心。
對於博通來説,Meta 測試的數據證實了技術的發展,它聲稱這代表着技術的一次重大變革,將人工智能網絡提升到了一個新的水平。
在大規模 AI 集羣中,數千個 GPU 必須像一個系統一樣運行,這給這些處理器的互連方式帶來了挑戰:每個機架不再擁有自己的一級(架頂式)交換機,並通過短銅纜連接,而是將交換機移至機架末端,以便在多個機架之間創建一致的低延迟網絡結構。這種遷移極大地延長了服務器與其第一個交換機之間的距離,這使得銅纜在 800 Gb/s 等速度下變得不切實際,因此幾乎每個服務器到交換機以及交換機到交換機的鏈路都需要光纖連接。
在這種環境下使用可插拔光學模塊存在明顯的侷限性:此類設計中的數據信號離開ASIC,穿過電路板和連接器,然后才轉換為光信號。這種方法會產生嚴重的電損耗,在200 Gb/s通道上損耗高達約22分貝,這需要使用複雜處理進行補償,並將每個端口的功耗增加到30W(這反過來又需要額外的冷卻並造成潛在的故障點)。尤其是隨着AI部署規模的擴大,這種損耗幾乎變得難以承受。
CPO 通過將光轉換引擎與交換機 ASIC 並排嵌入,避免了傳統可插拔光模塊的缺點,信號無需通過長距離電氣線路傳輸,而是幾乎立即耦合到光纖中。因此,電氣損耗降低至 4 分貝,每端口功耗降至 9W。這種佈局省去了眾多可能出現故障的組件,並大大簡化了光互連的實施。
在博通看來,共封裝光學器件 (CPO) 是一種先進的異構集成技術,將光學器件和硅片集成在單個封裝基板上,旨在應對下一代帶寬、功耗和成本挑戰。CPO 融合了光纖、數字信號處理 (DSP)、ASIC 以及先進的封裝和測試技術,為支持橫向擴展和縱向擴展網絡的數據中心互連提供顛覆性的系統價值。
博通進一步指出,如今,可插拔光模塊內部需要高功率 DSP,以補償信號從 ASIC 傳輸過程中產生的路徑互連損耗。隨着 SerDes 技術擴展到 212 Gbps PAM-4 及更高速率,這些互連損耗將持續增加,並需要更高功率的 DSP 補償。線性重定時光學器件 (LRO) 或線性可插拔光學器件 (LPO) 繼續受到這些互連損耗的影響,但它們試圖將 DSP 從光模塊內部移除。通過將光學器件通過單個基板接口放置在任何 ASIC 旁邊,CPO 可提供最高的集成度、最低的路徑損耗和最低功耗。
作為領一個重要參與者,Nvidia也聲稱,通過放棄傳統的可插拔收發器,並將光學引擎直接集成到交換機芯片中(得益於臺積電的 COUPE 平臺),其在效率、可靠性和可擴展性方面實現了顯著提升。Nvidia 表示,與可插拔模塊相比,CPO 的改進非常顯著:功率效率提高了 3.5 倍,信號完整性提高了 64 倍,由於有源設備減少,彈性提高了 10 倍,並且由於服務和組裝更簡單,部署速度提高了約 30%。
早在 2023 年 OFC 大會上,博通 就在探討共封裝光器件。其中包括一款速度高達 51.2Tbps 的全新博通 Tomahawk 5 Bailly 芯片。隨着數據中心需要降低比特/焦耳成本,同時提高速度和可靠性,共封裝光交換機被視為一項潛在的階躍式創新。這正是博通的項目如此令人興奮的原因。
如下圖這是一款博通 Tomahawk 5 51.2Tbps 交換芯片,搭載八個 64 通道硅光引擎。
這款新芯片無需將信號以電的方式傳輸到交換機前端的可插拔光器件,因此能夠以 5.5W 的功耗支持 800Gbps 的流量。作為參考,Tomahawk 4 Humboldt 25.6T 同封裝光器件平臺在 800Gbps 鏈路上的功耗約為 6.4W。
不過,正如博通光學系統部門營銷和運營副總裁 Manish Mehta 在接受媒體採訪時所説:「我們推出 CPO 時,它還處於 AI 時代之前,用於前端計算。當時,客户告訴我們,‘光收發器的功率有點高,我們認為信號完整性將面臨挑戰,’」「但隨着向橫向擴展網絡中 AI 訓練的遷移成為光互連的主要應用,業界已經認識到,前端雲計算對鏈路抖動事件的容忍度在后端並不適用。」Mehta 解釋道。
因此在博通推出的全新 TH6-Davisson 交換機是一款 102.4Tbps 的交換機,搭載 16 個博通 6.4Tbps Davisson DR 光學引擎。這些引擎採用了臺積電緊湊型通用光子引擎 (TSMC COUPE),旨在大幅降低交換機所需的功耗。該交換機集成了 64 個 Condor 3nm SerDes 核心。每個 Condor 核心集成了 8 個 212.5 Gb/s PAM4 SerDes。這是因為該交換機不需要在交換機封裝和前插式光模塊之間傳輸高速高功率電信號。博通表示,其功耗降低了約 70%。
新的 TH6-Davisson 部件編號為 BCM78919,這與疫情前我們見到的英特爾共封裝光學器件和硅光子交換機等解決方案不同。在這個設計中,博通採用了更現代化的配置,配備可插拔和可更換的激光模塊。光源通常是故障率最高的部件,因此將其設為 FRU 意味着交換機可以在現場進行維修。
博通花費了大量精力使用 TH5-Bailly 平臺測試其 CPO 解決方案,以證明它不僅可以達到速度,而且 CPO 是可靠的。
博通光學系統部門超大規模戰略與產品總監 Rajiv Pancholy 強調:「當我們啟動 (CPO) 平臺時,我們必須與模塊競爭,並證明我們擁有更低的功耗、更低的成本(得益於集成)和更高的可靠性。」 「現在,無論他們是否相信我們關於功耗的説法,我們從 Meta 獲得的數據都表明,使用 CPO 可以使訓練效率提高 90%。」
「Bailly 的設計初衷並非人工智能;它的設計理念是在人工智能訓練成為主要用例之前,」Mehta 補充道。「我們已將其遷移到專為人工智能打造……我們[也]在提高光纖密度方面做了大量工作,因為如果從 FR4 [收發器] 升級到 DR [收發器],則需要將光纖連接數量翻倍——從每個端口四根光纖增加到八根。」
如今,擁有 1.6TbE 的鏈路已經非常龐大。同時,對於大型 AI 集羣而言,能夠以 800GbE 或 400GbE 的速度連接更多設備是一個巨大的優勢,因為它可以幫助以更少的交換層連接更多設備。在 AI 集羣中,網絡功耗受到了嚴格審查,因為它既至關重要又耗電,會佔用 AI 加速器的資源。我們已經擁有幾代相當簡單的新型交換機,吞吐量翻了一番。共封裝光器件是該行業的下一個重大變革,因為它們從根本上重新定義了交換機的界限。
博通認為,我們仍處於 CPO 的早期階段,因此還有一些事情需要解決,但如果基線能提高 5 倍,那麼我們就能接近我們一直為 CPO 設定的目標故障率——也就是讓它和傳統硅芯片一樣可靠——至少這是可以實現的。
據介紹,其光學器件現在更接近交換機硅片,博通聲稱此舉可顯著減少Davisson 的鏈路抖動和功率損耗,使其能夠為 AI 集羣的高速互連提供動力。Davisson 是博通的第三代 CPO,其第一代產品 Humboldt於 2021 年首次亮相。
「經過三代的發展,這個生態系統日臻成熟,我們最初的主導合作伙伴以及越來越多的合作伙伴都對CPO能夠為網絡帶來的價值感到非常興奮,」Mehta説道。「我認為,我們看到了CPO領域更廣泛的投資呈現非常積極的勢頭。」
博通高管進一步指出,改進工作沒有任何停止的跡象,並補充道:「[Meta] 節省了 65% 的成本,可維護性故障率比可插拔式產品降低了 5 倍。這可是個不小的進步。我認為改進不會就此止步。」
據透露,該供應商目前正在研發第四代 CPO,其每通道傳輸速度可達 400G。
值得一提的是,Nvidia 也將推出基於 CPO 的光互連平臺,適用於以太網和 InfiniBand 技術。首先,該公司計劃在 2026 年初推出 Quantum-X InfiniBand 交換機。每台交換機將提供 115 Tb/s 的吞吐量,支持 144 個端口,每個端口的速率為 800 Gb/s。該系統還集成了 ASIC,具有 14.4 TFLOPS 的網絡內處理能力,並支持 Nvidia 的第四代可擴展分層聚合縮減協議 (SHARP),以降低集體操作的延迟。這些交換機將採用液冷設計。
與此同時,Nvidia 計劃於 2026 年下半年通過其 Spectrum-X Photonics 平臺將 CPO 引入以太網。該平臺將基於 Spectrum-6 ASIC,為兩款設備供電:SN6810 提供 102.4 Tb/s 帶寬,擁有 128 個 800 Gb/s 端口;SN6800 則可擴展至 409.6 Tb/s,擁有 512 個相同速率的端口。兩款設備也都採用液冷技術。
Nvidia 預計,其基於 CPO 的交換機將為日益龐大、日益複雜的生成式 AI 應用的新型 AI 集羣提供支持。由於使用 CPO,此類集羣將省去數千個分立組件,從而實現更快的安裝速度、更便捷的維護,並降低每個連接的功耗。因此,使用 Quantum-X InfiniBand 和 Spectrum-X Photonics 的集羣在啟動時間、首次token時間和長期可靠性等指標方面均有顯著提升。
Nvidia 強調,共封裝光學器件並非可選增強功能,而是未來 AI 數據中心的結構性要求。這意味着該公司將把其光互連技術定位為超越 AMD 等競爭對手的機架式 AI 解決方案的關鍵優勢之一。當然,這也是AMD 收購 Enosemi 的原因。
關於 Nvidia 的硅光子計劃,值得關注的一點是,其發展與臺積電 COUPE(緊湊型通用光子引擎)平臺的發展緊密契合。后者預計將在未來幾年內不斷發展,從而提升 Nvidia 的 CPO 平臺。臺積電第一代 COUPE 採用該公司的 SoIC-X 封裝技術,將 65 納米電子集成電路 (EIC) 與光子集成電路 (PIC) 堆疊在一起。
臺積電的 COUPE 路線圖分為三個階段。第一代是用於 OSFP 連接器的光學引擎,提供 1.6 Tb/s 的數據傳輸率,同時降低功耗。第二代將採用 CoWoS 封裝技術,通過共封裝光學器件,在主板層面實現 6.4 Tb/s 的數據傳輸率。第三代的目標是在處理器封裝內實現 12.8 Tb/s 的數據傳輸率,並進一步降低功耗和延迟。
我們一起期待一個更好的CPO時代到來。