繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

華為芯片背后:國產芯片開始走出一條不同於英偉達的路

2025-09-24 07:00

文|姚金鑫、曉靜

編輯|喬巴

中國的算力芯片領域,正在悄然發生變化。

9月20日在2025年華為全連接大會上,華為發佈了多款重磅芯片新品,包括升騰950系列、960以及970等AI芯片,並公佈了未來三年的升騰AI芯片產品路線圖。

其中,950系列採用了兩個不同的后綴——PR(Prefill & Recommendation,預填充與推薦)、DT(Decoder & Training,推理解碼與訓練)。

傳統AI芯片在處理大模型推理時面臨資源爭搶問題,而在互聯網平臺企業中,其推薦算法推理模型所需的內存容量也巨大。如何在算力、內存容量和內存帶寬之間取得平衡,是提升投入產出比的關鍵。

華為的「P/D分離」設計就是嘗試通過為不同應用場景配置不同的內存容量和帶寬來實現這一目標。

這種設計正是針對中國AI市場面臨的現實挑戰:能夠運行DeepSeek滿血版幾乎成為國內衡量AI計算系統的試金石。然而,要承載671B的參數,僅僅是採用不同版本Memory這一項的成本差異就可達數萬美金。

可以説,中國AI產業的市場化需求,倒逼了國產芯片的產品創新。

從產品角度看,發佈會上的這一最大看點,也是一個強烈的行業信號:

1)以DeepSeek為代表的應用與基礎模型產業方,在持續不斷且深度推動着中國AI芯片的發展;更進一步,受益於中國龐大的數據中心基礎設施規模與未來需求,「華為-海光-其他」的生態格局基本形成;

2)時代亟需一個具備技術背景、但又對市場應用嫺熟於心、同時又具有平衡取捨之道的產品經理人才梯隊;

3)AI產業的繁榮與領先,是AI芯片突破與創新的前提。

一、產能已經不是問題,下一步是生態

從近期華為主動發出的信號,以及作者作為多年從業者獲得的行業信息,華為的產能約束基本上得到了緩解。

數據中心的三大基石是計算、通信(網絡互連)和存儲,這是分析算力系統必須牢記的前提。在AI算力系統中,影響計算性能的,也可以劃分爲三個部分,設計算力值、計算(算力)核之間高速互聯以及存儲帶寬。

在《英特爾暴漲 7%,軟銀投資 20 億:一場關乎美國高端製造命運的豪賭》中,筆者曾經提到,算力的大小和工藝製程強相關,而這種高端工藝製程的主要體現就是Fab的高端產能與先進封裝。

為華為提供類CoWoS封裝的企業,今年已經出現產能盈余並向外釋放,説明在7nm節點附近,華為的需求已基本得到滿足。

再來看高速互聯。

WAIC期間,超節點是AI基建的重頭戲,其中,華為的CloudMatrix384成爲了亮點,它的顯著特徵是其點對點、全互聯、超高帶寬的網絡,通過 UB 協議連接所有的 NPU 和 CPU。

CloudMatrix384通過Ultra-High-Performance Networking實現了 CPU、NPU、內存、網卡(NICs)以及其他資源的完全點對點解耦與池化,其點對點硬件架構,包含用於超節點內擴展的超高帶寬統一總線(UB)、用於超節點間通信的 RDMA ,以及用於與數據中心網絡集成的虛擬專有云(VPC)。這再次證明,通信技術本就是華為的核心優勢。

再來看內存帶寬。

這次的發佈會上,華為發佈了950、960、970系列產品,其中最為引人注目的950系列推出了兩個版本,從應用上看這標誌着PD分離在硬件層面的解耦,但從結果來看,這説明內存帶寬也跟了上來。

當硬件瓶頸逐漸緩和后,生態就成為必須攻克的下一個堡壘。2022年,當業內開始注意到CUDA生態之於英偉達的意義時,構建生態似乎成了老生常談。

早在2022年,業界就注意到CUDA生態對英偉達的決定性意義。生態的本質是「生意」——只有讓其中的企業、機構、開發者都能獲得商業回報,生態纔會真正繁榮。Intel的X86、英偉達的CUDA、蘋果和騰訊的生態體系,都是基於這種邏輯。

這意味着華為也必須從「封閉」轉向「開放」,從「肥水不流外人田」走向「利益共享」。這條路,Intel和英偉達已經走過,華為也必須走一遍。

幸運的是,華為並不孤獨。另一家關鍵力量是海光。

在地緣政治風險的背景下,自主可控孕育了機遇。海光憑藉X86架構優勢,在信創和國產化市場中迅速崛起。其CPU在政企市場佔據一席之地,同時在AI算力芯片、RAID控制器、高速網絡芯片等方向逐步完善佈局。今年5月,海光宣佈與曙光合並,早前兩家公司就已在生態層面進行協同,通過市場讓渡與產業鏈深度合作,打造系統級生態。

由此可見,「華為-海光-其他」的生態格局基本形成。華為和海光在各自優勢領域領先,其他廠商則在特定賽道發力。

作者預判,產業格局接下來可能呈現如下變化:

華為需要在IDM與Fabless模式之間做出選擇,但無論如何都會保持對產能的強力控制;其次,合併后的海光下一步大概率會入股高端產能,潛在合作對象可能是華虹或中芯國際;在OSAT環節,則可能繼續深化與通富微電的合作。

二、中國芯片產業的產品經理時代到來了

上文提到,本次發佈的950系列之所以受到關注,核心就在於其PR和DT兩個不同型號,這正是業界探索已久的「P/D分離」。

這又是一個類似於DeepSeek發佈時的解碼遊戲。

爲了解釋清楚這個概念,需要看一下大模型的演進歷程和中國AI算力面臨的實際挑戰。

大模型的參數量是從Billion(十億)級別起跳,百億千億是常態,直至萬億級規模。這些參數需要容量非常大的空間進行存儲,且由於計算時需要極高速訪問這些存儲器,就需要極高的帶寬。這就催生出了HBM這種既有大容量又有高帶寬的新型存儲器。

在進行計算時,算力的大小也決定着計算的效率,因此一顆AI芯片的目標設計算力也會做得儘量大。

然而,很少有產品經理在設計中深入思考算力與存儲帶寬的最佳配比關係。畢竟,除了英偉達和Broadcom為大平臺訂製的AI芯片之外,能用起來已經是了不起的存在了。

但是,一個現實問題是,HBM的成本實在是太貴了,單GB容量的HBM是DDR的近乎10倍、甚至更高。對於中國的AI芯片公司來説,不僅成本壓力大,而且想要獲得足夠的產能、甚至是穩定的供應都是一個挑戰。

一個優秀的產品經理、架構師,之所以稱為合格、優秀,就是要會優化、取捨,Trade-Off。做好優化與取捨的前提,是要對應用場景有深刻的理解與洞察。

在AI的應用場景中,對資源需求最高的,除了模型的訓練過程,一個是大家耳熟能詳的大語言模型,一個是每一家互聯網公司的主要利潤來源——推薦算法。

在大模型推理中,常用以下兩項指標評估性能:

●TTFT(Time-To-First-Token):首 token 的生成時間,也就是從用户輸入完畢到大模型回覆的第一個字(母)所花費的時間,主要衡量 Prefill 階段性能,這是一種計算密集型任務,對並行能力要求高,但是對內存帶寬相對可以低一點;

●TPOT(Time-Per-Output-Token):生成每個 token 的時間,也就是用户直接感受到的回覆速度,主要衡量 Decode 階段性能,這一階段對內存容量和內存帶寬的要求更高。

當 Prefill 和 Decode 在同一塊AI芯片上運行時,由於兩階段的計算特性差異,會導致 TTFT 和 TPOT 之間的資源爭搶。若優先處理 Prefill 階段以降低TTFT,Decode 階段的性能(TPOT)可能下降。若選擇提升 TPOT,則會增加 Prefill 請求的等待時間,導致 TTFT 上升。

這次華為的兩個型號,採用不同的內存容量和內存帶寬,應該是採取了PD分離思路,正是爲了打破這一矛盾。

可以運行DeepSeek滿血版,幾乎成為國內衡量一個AI計算系統的試金石。

然而,要放得下671B的參數,僅僅是採取不同版本HBM這一項的成本差異就可達數萬美金。而在互聯網平臺企業中,其推薦算法推理模型所需的內存容量也頗為巨大。如果可以在算力、內存容量和內存帶寬間取得優化、取捨與平衡,投入產出比(ROI)就會提高。

時代呼喚專業的AI芯片產品經理。

事實上,在國內的芯片企業中,真正具備產品經理能力的人才非常稀缺。在曾經芯片主要還是由外企壟斷的時代,一家芯片企業的Product Marketing 或 Product Line Manager是產品線的核心管理崗位,一般是由在總部的極少數人擔任,隨着中國市場的需求和美國出現了一定程度的不同,纔有中國大陸人逐步躋身這一崗位。

而在中文語境下,「市場經理」常被理解為負責市場傳播(Marcom)或市場推廣(Business Development)的角色。在今天的國內AI芯片企業中,目前仍然是研發崗在定義產品。

從DeepSeek的滿血版提出的要求,到FP8數據精度的國產化需求,直至這次P/D分離,隱隱中可以看到模型應用提出需求進而驅動產品定義這一趨勢在中國已然發生。那麼理所應當地,一個具備技術背景、但又對市場應用嫺熟於心、同時又具有平衡取捨之道的產品經理,將成為下一階段定義和推動算力芯片和系統發展的主導力量。

這個趨勢,是AI芯片與AI系統專業化、精細化的開端,是產品運營上了新臺階的標誌。

這個趨勢,是「需求決定供給」這一經濟學規律在AI的中國市場中的再次體現。

三、 AI產業是戰略高地,AI芯片與AI產業可互相促進

正因為此,我們必須旗幟鮮明地説:不能爲了發展AI芯片,而拖累放緩了AI產業的發展。

AI產業的繁榮與領先,是AI芯片突破與創新的前提。

AGI和可控核聚變是人類文明當前面對的兩座生產力高峰。在當前的地緣格局下,大國的競爭圍繞這兩座高峰而展開。而企業之間的競爭,都在力圖確保自己一直能留在牌桌上,不被時代甩在后面。

正如在戰爭一樣,不能僅憑着熱血和口號,但使用落后的武器裝備去攻佔戰略高地,我們應該利用一切可以獲得的優勢資源去確保戰爭的勝利。

在通訊行業、在電力行業、在大基建行業,正是由於我們市場規模大、終端產業繁榮,一步步倒逼上游的技術突破與產品創新,最終在全行業上下游實現各環節的突破。

在AI產業的競爭中,首先要確保在競爭中留在牌桌上、甚至成為其中最為領先的佼佼者。正如這一次次的案例説明、也正如經濟學規律所揭示的一樣,只要AI產業我們處於世界領先水平,其所引領的趨勢、提供的豐富場景和明確需求、以及最重要的資本與人才、行業know-how積累,最終都會推動我們的AI芯片、算力系統取得突破,這只是個時間問題。

不過,網絡上有句流傳很廣的話:成年人不做選擇,我都要。

作為一個超大規模經濟體的中國,在行業豐富度、產業協同度和資本積累程度上,當前基本具備「都要」的實力。也就是説,在市場化經營的情況下,既有着使用世界頂級算力設施去衝頂的基礎與必要性,也有着扶持AI國產算力所需要的資源與意願。

努力奮鬥的目的,正是爲了可以爭取更多的選擇空間,於個人、於國家,皆如是。

經過各領域國人同胞們多年不懈的奮鬥與多方面積累,我們身處產業變革與飛速發展的時代,這是理性者的福音,是魄力者的機遇,更是每一個普通奮鬥者可能的逆襲之路。(本文作者姚金鑫(J叔)為芯片創業者,CCF高性能計算專委會執行委員)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。