熱門資訊> 正文
2025-09-20 18:42
(文/觀察者網 呂棟 編輯/張廣凱)
「算力是中國人工智能的關鍵,國內AI要多少算力就給多少算力,你要什麼樣的算力就給你什麼樣的算力。中國無論是誰想訓練多大參數的大模型,都是有商業基礎和算力提供的。」在剛剛結束的華為全連接大會上,華為輪值董事長徐直軍對觀察者網等媒體説道。
這次大會上,徐直軍時隔六年再度公佈昇騰和鯤鵬芯片的進展,讓外界頗感意外。從華為披露的信息,我們可以得到兩個確定性結論:一昇騰、鯤鵬兩大計算芯片將持續演進;二包括昇騰在內的國產AI芯片,仍將受制於國內芯片工藝的落后,單卡性能或長期落后英偉達。
那國內的AI算力需求怎麼被滿足?徐直軍向觀察者網強調了華為「5個字」核心戰略,就是「超節點+集羣」,「AI算力不等於芯片性能,單顆芯片性能的短板可以通過‘超節點和集羣’方式解決,且實現性能更強,同時國內的電力基礎施優勢也解決了算力用電問題。」
在當下,包括摩爾線程、壁仞科技、沐曦集成電路等初創GPU公司,已經紛紛表示兼容英偉達的CUDA計算生態,外界近期傳出華為也可能調整戰略,發展GPU併兼容CUDA。
但從徐直軍的表態來看,昇騰兼容CUDA的傳言並不可靠。他表示,華為要做開源開放的生態,不兼容CUDA是從長遠考慮,「CUDA現在也不能隨便用,都是過去的版本。如果哪天CUDA生態兼容不了怎麼辦?只要大家心往一處想,都來使用,國內生態一定會發展起來。」
芯片製程落后,昇騰單卡算力受限
這次大會,最受關注的莫過於華為再度公佈昇騰芯片的技術進展,讓外界能更直觀地瞭解昇騰芯片的實力和未來規劃,也讓大家對國產AI算力有了更多底氣。
按照華為公佈的信息,昇騰910C在今年一季度已推出,它的FP16(半精度浮點數)算力為800TFLOPS(每秒萬億次浮點運算,0.8PFLOPS),內存為128GB,帶寬為3.2TB/s。
作為對比,英偉達「中國特供」H20芯片的FP16算力為148 TFLOPS,內存為96GB,帶寬為4TB/s;H100同等精度下的算力為990TFLOPS,內存為80GB,帶寬為3.35TB/s。
簡單對比就會發現,昇騰910C的FP16算力已是英偉達H20的5倍多,逼近H100。而在內存容量上,昇騰910C也超過了H20和H100,只是帶寬還略有落后。
這或許就是中國監管敢於直接對H20「后門」問題出手的底氣,畢竟昇騰910C的實力已不輸於H20。但H20畢竟還是「閹割版」,與英偉達最先進的芯片相比,昇騰芯片的實力又如何呢?
以華為計劃在2027年四季度推出的昇騰960芯片為例,它的FP8精度下算力為2PFLOPS,FP4精度下算力為4PFLOPS,內存容量為288GB,帶寬為9.6TB/s。
作為對比,英偉達去年3月發佈的B200芯片,FP8精度下算力為4.5PFLOPS(稠密模式,稀疏計算會更大),FP4精度下算力為9PFLOPS,內存容量為192GB,帶寬為8TB/s。
不難看出,即便是兩年后的昇騰960,在單芯片算力上與B200仍存在一倍的差距。
直到計劃2028年四季度推出的昇騰970,它的FP8算力為4PFLOPS,FP4算力為8PFLOPS,顯存容量為288GB,帶寬為14.4TB/s,這些指標才能與B200一較高下。
昇騰已經是國產AI芯片的領跑者,其他芯片企業的單卡性能與英偉達存在更明顯的差距。比如正在衝刺IPO的摩爾線程,它的MTT S5000計算加速卡在FP32精度下的算力為32TFLOPS,這個數據與H20的44TFLOPS比較接近,但只有H100的一半。
國產單卡的落后原因可能是多方面的,最關鍵的還是芯片製程,畢竟英偉達可以隨意使用臺積電的先進製程,購買更先進的HBM,而中國企業在制裁封鎖下只能自力更生。
徐直軍坦言,智能化的可持續,首先是算力的可持續。中國半導體制造工藝將在相當長時間處於落后狀態,可持續的算力只能基於實際可獲得的芯片製造工藝。
華為核心戰略在5個字上,芯片之外都是優勢
算力是全球人工智能發展的關鍵,已經是不爭的事實。在美國持續封鎖中國AI單芯片的大背景下,我們怎麼才能獲取更多算力,為AI產業提供支撐?
徐直軍在全連接大會上對觀察者網坦言,華為的核心戰略就是「超節點+集羣」,整個戰略在這5個字上,「我們認為只有依靠超節點和集羣,才能規避中國的芯片製造工藝受限,能夠為中國的AI發展提供源源不斷的算力支持和供給。」
這次全連接大會上,華為公佈了Atlas 950超節點,它將在2026年四季度上市,由8192顆昇騰950DT芯片全光高速互聯而成,是今年商用的CloudMatrix384超節點的20多倍,FP8算力達到8E FLOPS,FP4算力達到16E FLOPS,互聯帶寬達到16PB/s。
「單顆芯片相比較英偉達有差距,生態還有差距,但是做成超節點集羣,我們有自信和底氣。因為AI就是並行計算,所以我們的解決方案就是開創計算架構,基於靈衢互聯協議打造超節點和集羣,來滿足我國無窮無盡的算力需求,這是我們對自己的目標,又是對產業界的承諾,更是對國家的承諾。」他説道。
徐直軍表示,Atlas 950超節點,至少在未來多年都將保持是全球最強算力的超節點,相比英偉達將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152TB;互聯帶寬是其62倍,達到16.3PB/s。即使是與英偉達計劃2027年上市的 NVL576相比,Atlas 950超節點各方面依然領先。
超節點的本質還是堆卡,但又不是簡單堆卡。以CloudMatrix384超節點為例,它是華為光通信、網絡、供電等多種能力「大雜燴」的結果。更重要的是,它打破了傳統以CPU為中心的馮諾依曼架構,憑藉高速互聯總線的關鍵突破,實現了更大的算力密度和互聯帶寬。
但超節點也會帶來一個重要問題,就是功耗。按照海外機構SemiAnalysis發佈的數據,華為CloudMatrix384超節點的算力是英偉達NVL72的1.7倍,功耗則達到了4.1倍。
在徐直軍看來,這並非瓶頸。「超節點+集羣有能力為中國AI產業提供充足算力,讓中國沒有算力之憂。但是功耗大一點,電要耗多一點,但無論怎麼説,我們有(資源),而且我們國家電價相對便宜。除了單顆芯片比它的算力小一點,功耗大一點,其他都是優勢。」
為什麼華為不兼容CUDA生態?
在AI的大規模計算中,芯片能力固然很重要,但同樣離不開軟件的協同。以英偉達為例,它的GPU雖然性能強大,但仍然需要CUDA的協助,才能充分釋放GPU的性能。
根據公開數據,目前英偉達CUDA閉源生態中已有500多萬開發者,超過900個高性能庫/框架,並且已連續迭代了18年。在當下,CUDA已不僅是編程框架,而是事實上的「AI計算操作系統」,競爭對手先得複製這18年的「代碼+人才+習慣」沉澱,纔敢談替代。
也就是在這個背景下,包括摩爾線程、壁仞科技、沐曦集成電路等初創的國產GPU企業,率先發力兼容CUDA生態,並伺機發展自主生態,以向開發者提供更方便的使用體驗。
但華為並沒有像早期鴻蒙兼容安卓一樣兼容CUDA,而是堅持發展CANN和MindSpore等全棧能力。
「為什麼我們不兼容CUDA生態,一定要搞開源生態和MindSpore,也是為長遠考慮的,我一直做,我投這麼多錢兼容CUDA生態,而且CUDA現在也不能隨便用,都是過去的版本。如果哪天CUDA生態兼容不了怎麼辦?為什麼我還堅定不移搞一個MindSpore呢?當時專家都反對。我們的AI,從達芬奇到昇騰芯片到整個一切,包括所有的軟件生態都不依賴於西方生態和供應鏈。所以長遠來考慮的話,要把生態構建起來。」徐直軍説道。
今年8月,華為宣佈CANN 編譯器和虛擬指令集接口開放,其它軟件全開源,CANN基於昇騰910B/C芯片的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;openPangu基礎大模型全面開源。
「華為為什麼做開源開放的生態?我們的進步是在和客户不斷地交互過程中相互促進與進步的。説‘開源開放’這四個字是難啊,尤其是對華為這種成長型的公司,大家習慣把源代碼捂得死死的,因為是核心資產,為此我們要説服大家到底從哪里掙錢。」徐直軍坦言,華為的變現靠昇騰硬件,其他的一切都可以開源開放。開源開放是促進硬件規模和硬件的普遍使用,「大家都用了,我賣得多了,開源開放的錢就掙回來了。」
但現在華為有一個明顯的挑戰是,在訓出準萬億參數的盤古Ultra MoE大模型之后,怎麼吸引更多像DeepSeek一樣的外部頂級大模型在昇騰平臺上訓練,這樣才能不斷證明昇騰與英偉達的抗衡能力。
「國內AI企業用昇騰訓練大模型,主要看是他們用不用,就像談戀愛,不談的話,你怎麼知道對方的優缺點,合適不合適,你要談一下,要用一下。在用的過程中有問題解決問題。當然了,第一是我們的生態和整個的工具鏈肯定是比英偉達有差距的;第二個原來在英偉達應用很熟練,就像我們用蘋果手機用得很熟練,就不願意轉過來,它是工程師的習慣問題,而不是高層的問題。雖然芯片供應問題阻礙了昇騰生態發展,但生態是用出來的,只要大家心往一處想,都來使用,國內生態一定會發展起來。」徐直軍表示。