熱門資訊> 正文
2025-08-04 12:42
轉自:中國經營網
中經記者 李玉洋 上海報道
「不做超節點就掉隊!」回顧2025年世界人工智能大會(WAIC)的精彩時刻,「超節點」絕對有一席之地。
其中最受矚目的,當屬華為首次展出的昇騰384超節點真機,即Atlas 900 A3 SuperPoD,其集成了384顆昇騰NPU和192顆鯤鵬CPU,通過全新高速網絡MatrixLink全對等互聯,這超節點就像一臺超級「AI服務器」,算力規模300 PFLOPs,接近英偉達GB200 NVL72系統的2倍。
《中國經營報》記者在現場看到,在昇騰384超節點面前,不缺少前來打卡的人流以及向工作人員詢問單機櫃供電功率、散熱方式等詳情的業內人士,其中不乏臺灣口音。
記者注意到,沐曦科技、新華三、超聚變等廠商也在WAIC上展示各自的超節點方案,共同上演了一場中國智算超節點的「集體秀」。
「這次WAIC大會,基本上國內所有AI芯片、服務器廠商都開始擁抱超節點。我們在去年提倡超節點的時候,大家還覺得很陌生,今年對這個趨勢已沒有任何疑問。」上海曦智科技有限公司(以下簡稱「曦智科技」)創始人、首席執行官沈亦晨博士表示。
記者還注意到,算力基礎設施每年都在競速創新,摩爾線程、沐曦科技、燧原科技等廠商都展出了最新的產品和解決方案。而且國產廠商也不再「比參數」,還出現了罕見的合作。比如四位國產AI芯片(沐曦科技、天數智芯、燧原科技和壁仞科技)高管首度同台,出現在大模型獨角獸——階躍星辰的圓桌論壇上。
對於此次較為罕見的合作,沐曦科技首席產品官兼高級副總裁孫國樑表示:「中國算力需求市場足夠大,把國產所有的卡或者能力放在一個行業,可能都不夠那個行業的快速發展。而中國的芯片需要百花齊放,因為每個行業有定製化的需求。」
Omdia人工智能首席分析師蘇廉節也表示:「這次合作的方向是提供高效易用的大模型解決方案,對整個生態是積極的。如果能提供從英偉達CUDA一家對多家芯片廠商平滑遷移的解決方案,那就再好不過了。」
超節點是重要趨勢
由於AI算力需求的極速膨脹,萬卡集羣從去年開始一直是國產算力廠商滿足算力供給的第一道門檻,摩爾線程、燧原科技、沐曦、壁仞科技等國產AI芯片廠商都已在萬卡集羣賽道上佈局。至於十萬卡,市場的主流選項主要是英偉達產品,國產廠商還缺乏存在感。
隨着日益更新的大模型對算力需求激增,萬億參數大模型與多模態訓練的興起,促使算力集羣跑步邁入超「萬卡協同」時代。
「怎樣的算力形態能夠滿足當下或未來的大模型使用需求?超節點已經成爲了公認的答案。隨着模型規模擴大,我們需要更強大、更均衡的算力,帶來更高性能的大規模並行運算能力。」新華三高級副總裁、雲與計算存儲產品線總裁徐潤安在WAIC2025期間做分享時如此表示。
據瞭解,超節點是由英偉達提出的「超級算力集羣」概念,可以簡單理解為將一臺或幾臺高性能AI服務器作為一個「節點」,通過高速互聯網絡技術將多個節點「連接」成一整個規模更大、性能更強的「超級計算節點」,專門用來應對消耗算力最多、最複雜的AI大模型計算任務。
據中科院物理所介紹,超節點作為Scale Up(縱向擴展)的當前最優解,通過內部高速總線互連,它能有效支撐並行計算任務,加速GPU之間的參數交換和數據同步,能縮短大模型的訓練周期。
「目前各個服務廠商、GPU廠商都來做超節點了。」壁仞科技OCS超節點項目相關負責人董朝鋒表示,雖然超節點目前尚沒有一個標準的行業定義,但節點相對來説定義明確,即單機8卡。「超節點是在單一節點的基礎上,節點內有同樣的性能,不管是帶寬還是延迟。」
沈亦晨以英偉達去年發佈的GB200 NVL72超節點(72張英偉達GB200 GPU互聯)為例,在採用同樣GPU的情況下,相比於把8卡服務器(傳統節點)通過網絡互連的傳統方式(即把同樣的GPU組成傳統單機8卡服務器,再把9台單機8卡服務器互連,同樣是72張GPU),NVL72這個超節點的吞吐量可以比非超節點提升3倍以上。在國內芯片製程沒有進一步突破的前提下,匹配一個英偉達NVL72超節點的計算能力需要500張國產GPU。
沈亦晨指出,目前超節點擴大規模有兩條主流路徑:一條是採用高電機櫃,把更多的GPU放進單機櫃里;另一條是使用多機櫃,讓GPU直接「出光」,就是具備跨機櫃的互連能力。
而對應業界更為通俗的説法是,Scale Up和Scale Out(橫向擴展)兩種方式來構建大規模GPU集羣。董朝鋒表示,縱向拓展即在一個節點內儘可能多地增加GPU,例如一個千卡集羣中,每64卡是一個超節點,在這個超節點中,可以做到卡間、機間的通訊帶寬、通訊基本一致。
「未來國內超節點方案,首先每個機櫃內會盡量放更多算力,然后會有多個機櫃通過光互連的方式連接成一個超節點。」沈亦晨表示,在底層芯片製程和能力上面,我國與美國不一樣,但是「在互連能力、光芯片能力上,其實並不受限制」。
AI算力競速創新
為追趕競爭對手並「上牌桌」,不只是華為昇騰,其他參展商也帶來了自家的超節點相關產品。
芯片廠商方面,沐曦在展臺上晾出了多款超節點產品,比如Shanghai Cube國產高密度液冷整機櫃,其採用47U單機櫃4組超節點(1組超節點32x GPU、單機櫃128x GPU)高密度液冷部署,8機櫃並排組成千卡集羣;耀龍S8000 G2超節點則首創3D Mesh互聯技術,實現64張曦雲C550通用GPU高速互聯的超節點,通信性能提升4倍,支持DeepSeek、Qwen、Kimi-K2、階躍Step3等主流大模型全場景應用。
服務器廠商方面,中興通訊推出了智算超節點服務器,單機櫃可搭載64顆GPU,還聯合上海儀電、曦智科技和壁仞科技發佈國內首個光互連光交換GPU超節點光躍LightSphere X;「老玩家」新華三帶來了超節點產品H3C UniPod S80000的全球首秀,實現單機櫃64卡高密部署及互聯互通,並具備向1024卡互聯演進的能力。
「新貴」超聚變則展出了全球首個多元智算即插即用超級集羣系統,單櫃128個AI加速卡,能實現112G/224G的高速互連;做到單櫃240kW的超級供電,1櫃頂32櫃;使用第5代100%原生液冷,實現節能20%以上。同時,超聚變構建了全面的軟硬件基礎設施技術和算力生態,能兼容10多家加速卡,提供雙生態南北向安全異構算力。
除了超節點,國產算力廠商在WAIC2025上還給出了新產品和解決方案。
國內全功能GPU芯片廠商摩爾線程首次提出「AI工廠」理念。摩爾線程創始人兼CEO張建中表示,為應對生成式AI爆發式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統級工程創新,構建新一代AI訓練基礎設施。
「業內最難做的一種工廠就是芯片工廠,芯片工廠叫Foundary。建立這個大型基礎設施的難度就好比建Foundary一樣,所以我稱之為‘AI Foundary’。」張建中用芯片行業建晶圓廠類比AI工廠,而這座「AI工廠」的智能「產能」,由五大核心要素共同決定,摩爾線程將效率公式概括為:AI工廠生產效率=加速計算通用性×單芯片有效算力×單節點效率×集羣效率×集羣穩定性。
今年,摩爾線程再次展出旗下的誇娥集羣系統,面向大規模智算中心,KUAE2智算集羣解決方案覆蓋FP64至FP8全精度計算,支持AI、圖形、科學計算等全場景加速,最高支持10240個全功能GPU部署。
此外,沐曦和燧原科技還在同天發佈了最新一代AI芯片。沐曦推出了曦雲C600通用GPU,燧原科技推出了通推一體L600AI芯片。
據燧原科技創始人、董事長兼CEO趙立東的觀察,在今年WAIC上,與算力相關的軟硬件技術,包括超節點、網絡技術、全光互連、低精度、分佈式並行計算、虛擬化等,不再是芯片公司單獨可以完成的事,需要跨行業協作、多方聚力構建系統化的解決方案。
「國芯+國模+國用」進入新階段
事實上,當大模型邁向推理時代,國產大模型與國產AI芯片之間的協同卻仍存在痛點。
就在國內大模型明星初創階躍星辰發佈新一代基礎大模型Step 3的同時,其還發起了橫跨模型、芯片和平臺的「模芯生態創新聯盟」,首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等。
在外界看來,這一重大舉措不僅彰顯「國芯」與「國模」的深度融合,更標誌着「國用」生態的加速落地,推動中國AI產業邁向自主可控的新階段。
記者注意到,在「模芯生態創新聯盟」下,還間接促進了國產AI芯片企業之間的合作,四位國產芯片大佬罕見同台,圍繞「大模型與芯片的協同與應用落地」進行了一場對話。
「階躍星辰的Step 3針對國產算力做了優化。以前的GPT也好,甚至包括很多優秀的開源模型也好,它們終歸不是為國產算力量身定做的。而Step 3的突破在於非常適合國產的算力卡,並且效果能達到世界領先的水準,這是它的巨大意義。」孫國樑表示,爲了應對客户的場景性需求,需要芯片、模型和數據,以及整個產業鏈做越來越多的協同。
孫國樑還提到,階躍星辰是上海模型的代表,沐曦又是上海的GPU廠商,所以雙方的合作是必然的。蘇廉節也表示,「模芯生態創新聯盟」雖説是上海市政府主推,但也能看到國家在背后積極支持廠商之間的合作。
當然,要打造一套真正開箱可用的軟硬件一體的服務系統,需要擊穿到行業底層。「底層是最難的。半導體、設備以及算力集羣和模型的適配等,都是我們面臨的考驗。這個模型適配完后,在行業上的應用服務和打通,也是我們必須要面臨的問題。」孫國樑表示,沐曦希望擊穿整個產業鏈,做好「國芯+國模+國用」這件事。
至於什麼時候能做到「開箱即用」,孫國樑表示,雖然具體的時間點説不好,但已經完成了0到1的「能用」,下一階段的「好用」以及「好用和易用」,每個階段都有要解決的問題,預計「今年的Q4會達到更好的一個狀態」。
(編輯:吳清 審覈:李正豪 校對:顏京寧)