熱門資訊> 正文
2025-10-11 15:48
隨着大模型參數進入爆炸式增長階段,AI算力需求正加速從單點突破走向系統級整合。
在這一背景下,「超節點」作為突破傳統算力瓶頸的新型產品形態,正逐步成為行業主流。華為副董事長、輪值董事長徐直軍在華為全聯接大會2025上表示,從大型AI算力基礎設施建設的技術方向看,超節點已經成為主導性產品形態,並正在成為AI基礎設施建設的新常態。
在超節點賽道上,國內科技巨頭已率先交出答卷。華為此前已推出CloudMatrix384超節點,將384顆昇騰NPU和192顆鯤鵬CPU通過高速網絡MatrixLink全對等互聯,形成一臺超級「AI服務器」,單卡推理吞吐量達到2300 Tokens/s。近期,阿里雲發佈新一代磐久128超節點AI服務器,集成阿里自研CIPU 2.0芯片和EIC/MOC高性能網卡,單櫃支持128個AI計算芯片。
從全球來看,人工智能基礎設施建設正按下「加速鍵」,英偉達、OpenAI、Meta等科技巨頭紛紛拋出AI基建新計劃,推動AI算力規模發展。華龍證券認為,中美AI競爭正從「單卡性能」走向「系統級效率」,中國正在用集羣建設+開源生態+工程化交付的方式完成AI基建方面的彎道超車。
國產陣營發力超節點
AI算力發展面臨的現實瓶頸推動了超節點的誕生。中國信通院在《超節點發展報告》中明確指出,當前AI算力建設正面臨「通信牆、功耗散熱牆、複雜度牆」三大挑戰。其指出,千億級模型一次梯度同步產生的TB級數據讓傳統以太網帶寬難以承受;同時,伴隨算力規模擴大,萬級處理器帶來的故障常態化,對自動化運維與RAS能力提出了更高要求。
從技術定義來看,信通院明確超節點是由AI計算節點通過高速互聯協議組成、具備更大內存空間的AI系統,超節點可以支持32及以上AI芯片,AI芯片到交換芯片帶寬不小於400GB/s,交換設備時延小於500ns。超節點域內AI芯片支持內存統一編址,AI芯片使用內存語義可直接訪問其他AI芯片的內存。
超節點要實現大規模高效組網,需要通過Scale Up組網突破單機算力邊界,構建大規模高速互聯體系;同時,通過Scale Out組網實現集羣化擴展,打破單節點算力限制。這兩大能力直接決定了AI模型訓練與推理的效率,以及算力規模拓展的邊界。
華為等公司已經完成了超節點服務的落地。徐直軍表示,CloudMatrix384超節點是基於Atlas 900超節點構建的雲服務實例,Atlas 900超節點自今年3月上市以來,已經累計部署超過300套,服務20多個客户,Atlas 950超節點將於2026年第四季度上市。
據悉,相比英偉達同樣將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152TB;互聯帶寬是其62倍,達到16.3PB/s。華為雲還將開放面向超節點的互聯協議——靈衢2.0技術規範,並推出全球首個通用計算超節點TaiShan 950超節點。
阿里巴巴集團CEO、阿里雲智能集團董事長兼CEO吳泳銘在2025雲棲大會上強調,超級AI雲是下一代的計算機。新的AI計算範式需要更稠密的算力、更高效的網絡、更大的集羣規模。
據悉,磐久128超節點AI服務器採用開放架構,擴展能力加強,可實現高達Pb/s級別Scale-Up帶寬和百ns極低延迟,相對於傳統架構,同等AI算力下推理性能還可提升50%。吳泳銘還宣佈,阿里巴巴正在積極推進三年3800億的AI基礎設施建設計劃,並將會持續追加更大的投入。
國內其他廠商也在加速推進超節點佈局。中科曙光發佈國內首個基於AI計算開放架構設計的曙光AI超集羣系統;浪潮信息發佈面向萬億參數大模型的超節點AI服務器「元腦SD200」;沐曦股份發佈多種超節點形態,包括光互連超節點(16-64x GPU)、耀龍3D Mesh超節點(32/64x GPU)等。
巨頭加碼,全球AI基建按下「加速鍵」
國新證券認為,超節點架構的核心在於,其「總線級互聯」與「平等協同」機制,使得萬卡集羣在邏輯上能夠作為一臺統一的計算機高效運行,實現計算與內存資源的全局調度。華為在昇騰AI芯片與超節點技術上的突破,恰逢全球AI算力投資熱潮。國產算力產業鏈藉助華為的開放策略,在芯片製造、HBM封裝、光通信及液冷温控等多個領域獲得發展機遇,但核心挑戰仍集中在生態成熟度層面。
同時,有業內人士表示,超節點正驅動智算中心基礎設施發生深刻變革,未來智算中心必須具備高密度、高效率、高彈性和大規模的「四高」特徵。
當前,全球正興起新一輪的AI基建熱潮。
當地時間10月6日,OpenAI稱與AMD達成一項戰略合作。OpenAI將部署6吉瓦AMD GPU算力,使用AMD Instinct系列GPU為其下一代人工智能基礎設施提供動力支持。據悉,首批1吉瓦AMD Instinct MI450 GPU的部署預計將於2026年下半年啟動。
當地時間9月22日,OpenAI和英偉達宣佈簽署意向書,雙方計劃為OpenAI的下一代 AI 基礎設施部署至少10吉瓦的英偉達系統,用於訓練和運行其下一代模型,從而部署超級智能。為支持數據中心和電力容量部署,英偉達還計劃對OpenAI投資高達1000億美元。而此前,OpenAI也與數據庫巨頭甲骨文簽署了一份為期五年、總價值高達3000億美元的算力合作協議。
儘管多方間潛在的利益關聯與協同動作,引發了市場對英偉達、OpenAI、甲骨文三者「循環交易」的質疑,不過,這也表明了,加速AI基礎設施建設已成為不可阻擋的行業趨勢。
英偉達高管此前在財報電話會上表示,預計到2030年,人工智能基礎設施支出將達到3萬億至4萬億美元。
開源證券研報認為,全球科技巨頭在AI算力基礎設施領域持續加大投入,將驅動模型、智能體能力迭代不止,助力內容創作、社交、廣告、電商、教育、金融等領域AI應用商業化加速。
新京報貝殼財經記者 韋博雅
編輯 王進雨
校對 趙琳