繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

博通用一顆芯片,單挑英偉達InfiniBand 和 NVSwitch

2025-07-18 08:58

InfiniBand 一直被認為是跨 PC、服務器、存儲和網絡使用的主流結構,但這一努力失敗了,InfiniBand 的剩余努力在千禧年之交獲得了第二次生命,成為運行模擬和模型的超級計算機的高性能、低延迟互連。

幾十年來,得益於遠程直接內存訪問 (RDMA) 帶來的低延迟,InfiniBand 找到了一個利基市場。RDMA 允許 CPU、GPU 以及其他類型的 XPU 直接訪問彼此的主內存,而無需經過整個網絡軟件堆棧。這也是Nvidia 五年多前斥資 69 億美元收購 Mellanox Technologies 的原因之一。Nvidia 無疑預見到了 GenAI 的蓬勃發展,並知道它需要 InfiniBand 作為連接 GPU 服務器節點的后端網絡,以便它們能夠協作訓練 AI 模型。

與此同時,在 GPU 服務器內部,Nvidia 需要一種方法來集羣 GPU 的內存,以便它們可以共享工作並運行 AI 訓練和推理例程以及 HPC 代碼,就像 CPU 具有非統一內存訪問 (NUMA) 技術一樣,這使得多個計算引擎在系統軟件看來就像一個巨大的單一設備。為此,Nvidia 的研究人員重新發明了輪子,創建了 NVLink 端口,並最終創建了 NVLink 交換機(早年通常簡稱為 NVSwitch,因此我們習慣這樣做),它於 2018 年首次部署在其 DGX-2 系統內部,該系統有 16 個「Volta」V100 GPU 加速器共享它們的 HBM 內存堆棧,使它們看起來像一個巨大的單個 GPU,具有 2 petaflops 的 FP16 浮點性能。(這在當時是很大的魅力。)

在 InfiniBand 互連商業化的前二十年里,使其成為主流的殺手級應用從未出現。傳統的高性能計算 (HPC) 在 IT 市場中佔據的份額不足以讓 InfiniBand 轉向以太網。然而,在短短几年內,大型語言模型、生成式人工智能及其多模態基礎模型的興起,將 InfiniBand 作為集羣后端網絡推向了新的高度;與此同時,NVLink 和 NVSwitch 為構建人工智能服務器節點提供了巨大的優勢——如今已擴展到 GB200 NVL72 等機架級系統。

但 Nvidia 對這些產品收取了相當高的費用,而全世界都喜歡它的以太網和較低的網絡價格。

這就是為什麼芯片製造商博通花了三年多的時間將一種名為 Tomahawk Ultra 的新型低延迟、無損以太網交換機 ASIC 推向市場,它不僅可以取代 InfiniBand 作為 HPC 和 AI 集羣的后端網絡,而且可以兼作內存結構,將各種計算引擎連接在一起形成共享內存集羣,就像 NVlink 和 NVSwitch 對 Nvidia GPU 加速器所做的那樣。

博通的目標是將 InfiniBand 應用於傳統的 HPC 社區和不斷發展的 AI 應用,而這些應用對延迟越來越敏感。Tomahawk Ultra 交換機 ASIC 的開發實際上早於 GenAI 的興起和向機架式系統發展的趨勢,機架式系統支持大規模推理工作負載,並混合使用專家基礎模型,當所有 XPU 在共享內存集羣中通信時,響應速度會更快,而不是使用速度較慢且耦合度較低的 InfiniBand 或以太網。

「在推出 Tomahawk 5 之前的三年多時間里,我們一直在研究交換機的路線圖,試圖弄清楚我們是否完全覆蓋了所有不同的應用領域,」博通 Trident 和 Tomahawk 交換機產品線經理 Peter Del Vecchio 告訴The Next Platform。「我們有 Jericho 芯片,主要應用於服務提供商和 AI 領域。我們有 Tomahawk 和 Trident,用於超大規模和企業網絡。但我們發現,在 HPC 領域,InfiniBand 憑藉其交換機的設計優勢佔據優勢。優勢不在於協議本身,而在於 InfiniBand 專注於不同的拓撲結構——它不需要處理全球數據中心網絡、隧道和 VXLAN,也不用通過海底電纜進行 17 跳傳輸。InfiniBand 確實有一些特性優於我們針對特定 HPC 和 AI 應用的某些交換機 ASIC——尤其是在延迟和每秒數據包數方面,InfiniBand 更具優勢。」

人們一直在談論InfiniBand在延迟方面的優勢,但並非所有人都意識到高數據包吞吐量對於高性能計算(HPC)工作負載(有時也包括人工智能工作負載)的重要性。高數據包吞吐量通常是以太網交換機ASIC的2到3倍,而ASIC經過調整,成為跨數據中心網絡結構的一部分,並且隨着時間的推移,處理的數據包越來越大。典型的數據中心交換機的數據包大小為1 KB,而支持巨型數據包的交換機則會將數據打包成9 KB的塊進行傳輸。

InfiniBand 的數據包大小通常在 256 B 到 2 KB 之間,最大值為 4 KB,這個值較小。CPU 緩存行的大小為 64 B,GPU 緩存行的大小為 256 B,因此,如果要實現 CPU 和 GPU 的內存互連,需要進一步降低數據包大小,降低延迟,並提高每秒通過 ASIC 的數據包數 (PPS)。InfiniBand 不僅支持胖樹網絡拓撲,還支持蜻蜓、環面和網狀拓撲。大型以太網通常採用 Clos 拓撲,這種拓撲結構允許以低成本連接整個數據中心的硬件,但這種方式不適合共享內存的機架式系統。

瞄準InfiniBand

早在我們首次啟動The Next Platform時,我們就寫了一篇名為《InfiniBand 速度太快,以太網無法消滅》的文章,這句話在十年內一直成立,在 2015 年也同樣成立。

RDMA 加上 InfiniBand 協議中更小的報頭等其他優勢,使得這種高速網絡相較於以太網具有巨大的優勢。讓我們來看看 Mellanox 的規格。2001 年 8 Gb/秒單速率 (SDR) InfiniBand 問世時,InfiniBand 交換機 ASIC 上的端口到端口跳躍延迟為 300 納秒,比當時的以太網交換機快了一個數量級。使用 16 Gb/秒 DDR InfiniBand 后,延迟降至 200 納秒;2007 年,隨着 QDR InfiniBand 的推出,帶寬再次翻倍至 32 Gb/秒,延迟降至 140 納秒。由於 FDR InfiniBand 的運行速度為 56 Gb/秒,Mellanox 將以太網和 InfiniBand 融合到一個名為 Switch-X 的交換機 ASIC 上,運行 InfiniBand 協議時延迟高達 170 納秒,這與許多 HPC 企業的預期背道而馳。因此,在 2015 年,隨着 EDR InfiniBand 向 100 Gb/秒的遷移,非融合 InfiniBand 和以太網上的延迟有所降低,並推出了 Switch-IB ASIC。據 Mellanox 當時稱,在某些情況下,該 ASIC 將延迟降低至 86 納秒。Switch-IB 端口到端口跳轉的官方延迟為 130 納秒。

在過去的十年中,隨着帶寬的增加,信號變得越來越嘈雜,這意味着清理信號所必需的前向糾錯給數據移動帶來了越來越多的開銷,因此延迟一直在增加。

使用 200 Gb/秒 HDR InfiniBand 時,同類最佳延迟為 130 納秒,這意味着平均延迟更高。對於 400 Gb/秒 NDR InfiniBand,Nvidia 不再具體討論延迟,800 Gb/秒 XDR InfiniBand 也是如此,儘管我們間接聽到過 GTC 2025 大會上一位 Nvidia 工程師的演示,他表示這些設備的端口到端口跳躍延迟為 240 納秒。

在同一時間內,交換機的數據包吞吐量對高性能計算 (HPC) 工作負載至關重要。我們目前沒有關於 PPS 的早期數據,但十年前 100 Gb/秒的 Switch-IB ASIC 可以在 7.2 Tb/秒的設備上實現 70 億 PPS。隨着 2018 年 200 Gb/秒的 Quantum ASIC 的推出,在 16 Tb/秒的設備上,這一吞吐量提升至 166 億 PPS;而對於 2021 年 400 Gb/秒的 Quantum-2 ASIC,該設備可以在 25.6 Tb/秒的總吞吐量下,實現 66.5 PPS。對於 51.2 Tb/秒、800 Gb/秒的 Quantum-X 設備,Nvidia 尚未提及 PPS。它可能會上升,也可能保持穩定。

博通的Tomahawk Ultra交換機ASIC擁有51.2 Tb/秒的總帶寬,運行以太網協議,端口到端口跳數延迟僅為250納秒,每秒可傳輸770億次數據包。在高性能計算(HPC)中,對於常見的小數據包大小,其每秒傳輸速度(PPS)是博通102.4 Tb/秒Tomahawk 6交換機ASIC的兩倍,而后者對於相同大小數據包的延迟在600納秒到700納秒之間。

那麼,博通是如何憑藉Tomahawk Ultra成為InfiniBand殺手的呢?部分原因是採用了一些早期加入Ultra以太網聯盟的技術,另一項技術則是將以太網數據包報頭壓縮到很早以前,以便它們能夠更快地穿透交換機——但這樣做不會破壞以太網兼容性。除此之外,博通還添加了類似於InfiniBand長期以來所擁有的網絡內集體操作,以便在網絡中執行某些類型的HPC和AI操作,而不是在端點執行。

優化的以太網報頭非常重要:

如您所見,優化后的以太網報頭減少到 10 個字節,而標準以太網數據包中使用的標準 IPv4 和 UDP 報頭為 46 個字節。

另一個提高吞吐量的巧妙方法是使以太網更加無損,這意味着當信號混亂或交換機中的緩衝區已滿並導致擁塞時,它不會丟棄數據包。

使以太網表現得更無損(更有收益?)的一種技術是像 InfiniBand 一樣在協議棧的鏈路層進行重試,檢測前向糾錯中的錯誤,並在必要時重新發送數據包幀,甚至在協議棧的上層發現有丟失之前。

LLR 是 UEC 規範的一部分,但如何實現它則由 ASIC 製造商決定。

另一項早期從 UEC 規範中引入的技術實際上是 InfiniBand 標準的一部分,並且從一開始就存在。它被稱為基於信用的流量控制 (Credit-Based Flow Control)。顧名思義,它通過對設備緩衝區空間進行嚴格的遙測來控制發送方和接收方之間的數據流。就像這樣:

使用 CBFC,接收方可以讓發送方知道何時有空閒的緩衝區空間以及空閒量,這樣發送方就只能發送在特定時間內能夠接收的數據量。這樣一來,緩衝區就不會溢出,比特也不會被丟棄,而這正是以太網傳統的擁塞處理方式。這種方法在用於網頁服務的 Clos 網絡上運行良好,但對於運行 AI 和 HPC 工作負載來説卻非常糟糕。

最后,如果要替換InfiniBand,則需要進行網絡內集體操作:

Nvidia 為其 InfiniBand 產品線將這些功能稱為 SHARP 功能,其中許多功能已轉移到 NVSwitch,並且有一天可能也會轉移到 Spectrum-X 以太網 ASIC,迄今為止,它們還不支持在交換機上進行這些集體操作。

以太網長期以來一直在追趕 InfiniBand,Cray(過去六年一直是 HPE 的一部分)的「Rosetta」 Slingshot 互連或許是其逼近 InfiniBand 的最佳例證。Slingshot 網絡已在美國和歐洲的準百億億次級和百億億次級計算機中使用,但它遠未被 HPC 中心廣泛採用,更不用説人工智能初創公司、超大規模企業和雲構建商了。

我們強烈懷疑 Tomahawk Ultra 的表現會好得多。

也擊中NVSwitch

雖然博通瞄準的是InfiniBand,並推出了Tomahawk Ultra,但它似乎也將對NVSwitch及其新興競爭對手UALink發起猛烈攻擊。我們尚不清楚NVSwitch端口到端口的延迟,但我們知道UALink聲稱可以將延迟降低到100納秒到150納秒。(更多信息請參閱「UALink向Nvidia NVSwitch發起首個GPU互連攻擊」 。)

現在可以肯定的是,Tomahawk Ultra 是 Broadcom 一直在推動的擴展以太網 (SUE) 計劃的一部分,作為 NVSwitch 和 UALink 的替代方案。

可以看出,傳輸層的傳輸和接收時間不到 150 納秒,加上跨交換機的端口到端口跳轉時間 250 納秒,對於使用 Tomahawk Ultra 作為后端主干的機架式系統中運行的兩個 XPU 設備之間的跳轉時間而言,不到 400 納秒。據 Del Vecchio 稱,SUE 方法將允許 XPU 製造商(包括 Nvidia 或 AMD,如果他們選擇這樣做的話)通過以太網隧道傳輸其協議,由於這種隧道傳輸,開銷僅為「數十納秒」。

因此,AMD 計劃在其未來的「Helios」機架式系統中,通過以太網隧道傳輸其 Infinity Fabric 的一個變體(該變體將被標記為 UALink,AMD 也捐贈了 Infinity Fabric),這或許並非巧合。AMD 目前正在等待 Astera Labs 以及其他可能加入 UALink 陣營的公司(例如 Marvell 和 Microchip)推出合適的 UALink 交換機。(鑑於 Tomahawk Ultra 的存在,博通可能不會生產 UALink 交換機。)

Tomahawk Ultra ASIC 現已開始提供樣品,基於該芯片的產品預計將於 2026 年上半年上市。客户可以使用銅纜或光纖線纜與 Tomahawk Ultra 配合使用,並可直接從交換機驅動信號,或根據需要進行光器件共封裝。博通願意根據任何用例和預算進行定製。

參考鏈接

https://www.nextplatform.com/2025/07/17/broadcom-tries-to-kill-infiniband-and-nvswitch-with-one-ethernet-stone/

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。