黃仁勛誇爆的華為AI超節點，技術祕籍披露，昇騰910C跑DeepSeek，效率超英偉達

2025-06-19 07:36

智東西6月18日報道，6月15日，華為聯合硅基流動發佈論文《在華為CloudMatrix384上提供大語言模型（Serving Large Language Models on Huawei CloudMatrix384）》。據論文報告，在DeepSeek-R1模型的評估中，應用於華為AI超級節點CloudMatrix384的昇騰910C NPU可實現趕超英偉達H800 GPU的計算效率。

論文截圖，論文地址：https://arxiv.org/pdf/2506.12708

CloudMatrix384是華為於2025年4月發佈的AI超級節點，是其下一代AI數據中心架構CloudMatrix的首次生產級落地。CloudMatrix384集成384顆昇騰910C NPU和192個鯤鵬CPU，通過超高帶寬、低延迟的統一總線（UB）網絡互連，從而有效解決傳統數據中心架構中常見的可擴展性和效率挑戰。

基於CloudMatrix384，華為推出了CloudMatrix-Infer服務解決方案。對DeepSeek-R1模型的廣泛評估表明，華為CloudMatrix-Infer的計算效率可超過英偉達H800的表現。

CloudMatrix-Infer在預填充階段為每顆NPU提供6688tokens/s吞吐，在解碼期間為每顆NPU提供1943tokens/s吞吐，同時始終保持每個輸出token低於50ms的低延迟。對應的預填充階段計算效率達4.45 tokens/s/TFLOPS，解碼階段1.29 tokens/s/TFLOPS，這超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領先框架的公佈效率。

這樣的成績，也印證了前不久英偉達CEO黃仁勛的判斷：雖然（如任正非所説）美國芯片技術比華為領先一代，但人工智能是一個並行問題，如果每台計算機的性能不夠強，那就用更多的計算機，華為可以滿足中國乃至更多市場的大模型需求。

華為的CloudMatrix架構願景從零開始重新構想AI數據中心基礎設施。通過拆除傳統的孤立設計，它支持通過統一的超高性能網絡實現CPU、NPU、內存、NIC和其他資源的完全點對點分解和池化，從而為可擴展的AI原生數據中心奠定基礎。

華為CloudMatrix架構願景概述

01.集羣設計：統一總線，直連所有NPU和CPU，高速互連

當下，傳統的AI集羣越來越受到計算強度、內存帶寬限制、芯片間通信開銷和嚴格的延迟要求的限制。在實際部署中，人們需要處理各種突發工作負載、可變長度輸入和不平衡的專家激活，同時滿足嚴格的服務級別目標，從而進一步加劇了這些挑戰。

克服這些限制需要從根本上重新架構、共同設計的硬件和軟件堆棧。華為推出了下一代AI數據中心架構CloudMatrix為應對這些挑戰提供瞭解法。

CloudMatrix超越傳統的以CPU為中心的分層設計。它促進了所有異構系統組件之間的直接、高性能通信，包括NPU、CPU、DR、SDS、NIC和特定於域的加速器，特別是不需CPU中介。

此架構的核心是超高帶寬、低延迟的統一總線（UB）網絡，它促進了高效的系統範圍數據遷移和協調。CloudMatrix基於此互連基板構建，提供TP/EP的可擴展通信、適用於異構工作負載的靈活資源組合、適用於融合工作負載的統一基礎設施、通過分解內存池實現內存類存儲四項基本功能，共同定義了AI原生基礎設施的新範式。

CloudMatrix384超級節點的點對點硬件架構

CloudMatrix384將384顆昇騰910C NPU、192個鯤鵬CPU和其他硬件組件集成到一個統一的超級節點中，通過超高帶寬、低延迟的統一總線（UB）網絡互連，從而實現接近節點內水平的節點間通信性能。

與傳統的分層設計不同，這種架構支持通過UB進行直接的多對多通信，從而允許計算、內存和網絡資源動態池化、統一訪問和獨立擴展。這些架構特性特別有利於通信密集型作，例如大規模MoE專家並行和分佈式鍵值（KV）緩存訪問，使CloudMatrix384成為下一代大語言模型服務的可擴展和高性能基礎。

爲了支持不同的流量模式並保持與傳統數據中心網絡的兼容性，CloudMatrix384整合了三個不同但互補的網絡平面：UB平面、RDMA平面和VPC（虛擬私有云）平面。

但CloudMatrix的長期願景是將RDMA和VPC平面融合到一個統一的平面中。當前的CloudMatrix384將它們分開，是爲了確保與傳統數據中心基礎設施的向后兼容性。

02.384顆昇騰910C、48個節點，CANN軟件棧加持

在硬件組件方面，CloudMatrix384的核心是海思昇騰910C NPU。作為昇騰910B的后續產品，昇騰910C是一種雙die封裝：兩個相同的計算die被共同封裝，共享8個封裝上的內存堆棧，並通過高帶寬交叉die結構連接。

昇騰910C芯片的邏輯概述突出雙die架構

計算方面，每顆芯片可維持大約376TFLOPS的密集BF16/FP16吞吐量，每個封裝的總吞吐量為752TFLOPS；存儲方面，昇騰910C封裝集成了8個內存堆棧（每個堆棧16GB），提供總共128GB的封裝內存（每個芯片64GB）。網絡接口方面，每顆昇騰910C裸片與UB平面和DMA平面兩個不同的網絡平面接口。

聚焦計算節點，CloudMatrix384中的每個計算節點都集成了8個昇騰910C NPU、4個鯤鵬CPU和7個UB交換芯片。

如下圖所示，12個處理器（8個NPU和4個CPU）通過UB鏈路連接到這些板載交換機，在節點內創建一個單層UB平面。每個NPU配置高達392GB/s的單向UB帶寬，而每個鯤鵬CPU插槽提供大約160GB/s的單向UB帶寬。板載單個UB交換機芯片為超級節點結構中的下一個交換層提供448GB/s的上行鏈路容量。

CloudMatrix384中昇騰910C節點的邏輯概述

只有NPU參與輔助RDMA平面。每個NPU設備為橫向擴展RDMA流量提供額外的400Gbps單向鏈路，每個節點總共產生3.2Tbps的RDMA帶寬。

在CPU複合體中，四個鯤鵬CPU插槽通過全網狀NUMA拓撲互連，從而在所有CPU連接的DRAM上實現統一的內存訪問。其中一個CPU託管節點的擎天卡，這是一個專用的數據處理單元（DPU），不僅集成了高速網絡接口，還執行基本的節點級資源管理功能。此擎天卡用作節點的主要南北向出口點，與第三個不同的網絡平面（數據中心的VPC平面）接口。

再來看UB交換機系統，CloudMatrix384超級節點跨越16個機架：12個計算機機架，共同託管48個昇騰910C節點（共384個NPU）和4個通信機架。這些通信機架容納了第二層（L2）UB交換機，用於互連超級節點內的所有節點。

下圖說明了板載第一層（L1）UB交換機和機架級L2 UB交換機之間的拓撲結構。該網絡設計為無阻塞網絡，這意味着在L2交換層沒有帶寬超額訂閲。L2交換機分為7個獨立的子平面。每個子平面包含16個L2 UB交換機芯片，每個L2交換機芯片提供48×28GB/s端口。

CloudMatrix384中的UB交換機系統

在每個節點內部，7個板載L1 UB交換機芯片一對一映射到這7個L2子平面上。每個L1交換機芯片通過16個鏈路扇出（一個鏈路連接到其相應子平面中的每個L2交換機芯片）。此配置可確保節點到L2交換矩陣的聚合上行鏈路帶寬與其內部UB容量精確匹配，從而保持整個超級節點的無阻塞特性。

在軟件堆棧方面，華為為昇騰NPU開發了一個全面的軟件生態系統，稱為神經網絡計算架構（CANN）。CANN作為中間軟件層，實現了高級AI框架（如PyTorch和TensorFlow）與昇騰NPU的底層硬件接口之間的高效集成。通過將這些框架生成的抽象計算圖轉換為優化的硬件可執行指令，CANN簡化了開發人員與昇騰硬件的交互，促進了軟硬件協同設計，並旨在最大限度地提高昇騰架構上的應用程序性能。

CANN軟件堆棧由三個主要層組成：驅動程序、運行時和庫，這種架構類似於NVIDIA的CUDA生態系統。

華為昇騰NPU的CANN軟件棧

爲了實現雲環境中的CloudMatrix384部署，華為雲提供了一套複雜的基礎設施軟件，包括MatrixResource、MatrixLink、MatrixCompute和MatrixContainer，旨在通過標準的雲API抽象出硬件複雜性並實現無縫的資源編排。

用於部署CloudMatrix384的雲基礎設施軟件堆棧

總之，CloudMatrix384專為提高互連帶寬和通信效率而構建，這是擴展大型訓練和推理工作負載所必需的核心功能。DeepSeek-R1等大規模MoE模型的出現驗證了這一點。

論文展示了DeepSeek模型的適用性分析，主要關注MoE通信、內存可擴展性、高速緩存重用和量化支持四個關鍵維度。

分析可得，CloudMatrix384的架構，包括其大規模NPU計算、廣泛的內存容量、高帶寬UB互連和基於DRAM池的緩存，與DeepSeek這樣的大語言模型服務的需求緊密結合。這些協同作用為后續部分中介紹的優化推理架構提供了堅實的基礎。

03.部署帶飛DeepSeek-R1，計算效率可超英偉達

爲了充分利用CloudMatrix384的能力，華為提出了CloudMatrix-Infer，這是一個全面的大語言模型服務解決方案，為部署DeepSeek-R1等大規模MoE模型建立了實踐參考。

跨AI軟件堆棧的多個層提出的優化技術

CloudMatrix-Infer包含三項核心創新：

首先，華為設計了一個點對點服務架構，將預填充、解碼和緩存分解到獨立可擴展的資源池中。與現有的以KV cacheCentric架構不同，這種設計支持通過UB網絡對緩存數據進行高帶寬、統一訪問，從而減少數據局部性限制，簡化任務調度，並提高緩存效率。

其次，華為設計了一個大規模的專家並行（LEP）策略，利用UB網絡實現高效的token調度和專家輸出組合。該策略支持非常大的EP度數，例如EP320，使每個NPU芯片能夠只託管一名專家，從而實現低解碼延迟。

最后，華為提出了一套為CloudMatrix384量身定製的硬件感知優化，包括高度優化的算子、基於微批處理的流水線和INT8量化，以提高執行效率和資源利用率。

對DeepSeek-R1模型的廣泛評估表明，CloudMatrix-Infer實現了卓越的吞吐量。

其在預填充階段為每個NPU提供6688tokens/s，在解碼期間為每個NPU提供1943tokens/s，同時始終保持每個輸出token低於50ms的低延迟。這些結果對應的計算效率為：預填充階段計算效率達4.45 tokens/s/TFLOPS，解碼階段1.29 tokens/s/TFLOPS，這兩者都超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領先框架的公佈效率。

此外，CloudMatrix-Infer有效地管理了吞吐量-延迟的權衡，即使在更嚴格的低於15ms的TPOT約束下，也能夠維持538tokens/s的吞吐量。

INT8量化策略在各種基準測試中進一步保持了與DeepSeek的官方API相當的準確性。

04.結語：部署大規模AI工作負載，樹立AI基礎設施新標杆

在參數規模增加、混合專家（MoE）架構採用和上下文長度擴展的推動下，大語言模型的快速發展對AI基礎設施提出了前所未有的要求。

作為一個高效、可擴展且性能優化的平臺，華為CloudMatrix可用於部署大規模AI工作負載。CloudMatrix384的一個根本性特徵是其點對點、完全互連、超高帶寬網絡，通過UB協議連接所有NPU和CPU，為未來的AI數據中心基礎設施樹立了標杆。

展望未來，CloudMatrix384有幾個令人興奮的增強方向。未來的工作包括集成和統一VPC和RDMA網絡平面以實現更簡化的互連、擴展到更大的超級節點配置，以及追求更深入的CPU資源分解和池化。

此外，更精細的組件級分解和自適應部署策略為在AI數據中心基礎設施中實現更高的靈活性、效率和可擴展性提供了有前途的途徑。

本文來自微信公眾號「智東西」（ID：zhidxcom），作者：李水青，編輯：心緣，36氪經授權發佈。

黃仁勛誇爆的華為AI超節點，技術祕籍披露，昇騰910C跑DeepSeek，效率超英偉達

01.集羣設計：統一總線，直連所有NPU和CPU，高速互連

02.384顆昇騰910C、48個節點，CANN軟件棧加持

03.部署帶飛DeepSeek-R1，計算效率可超英偉達

04.結語：部署大規模AI工作負載，樹立AI基礎設施新標杆

推薦文章

一周財經日曆 | 特朗普對等關税將於8月7日生效；Palantir、超微電腦等財報來襲

8月金股搶先睇！港股能否繼續抽升？哪些賽道值得關注

英諾賽科午前飆升逾31% 英偉達最新800V架構供應商名單曝光公司為中國唯一入選芯片企業

亞馬遜Q2業績會實錄：市場對AWS服務需求超過亞馬遜現有容量

特朗普官宣「對等關税」：各國税率10%至41%不等 加拿大上調至35%

盤后大跌6%！亞馬遜交出優秀財報 但云業務仍遜色於微軟谷歌

蘋果第三財季營收940.36億美元 淨利潤同比增長9%

外盤頭條：白宮稱特朗普將在午夜前設定新關税 蘋果季度營收遠超預期 Pimco青睞短至中期歐洲債券

特朗普官宣「對等關税」：各國税率10%至41%不等加拿大上調至35%

盤后大跌6%！亞馬遜交出優秀財報但云業務仍遜色於微軟谷歌

蘋果第三財季營收940.36億美元淨利潤同比增長9%

外盤頭條：白宮稱特朗普將在午夜前設定新關税蘋果季度營收遠超預期 Pimco青睞短至中期歐洲債券