繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

國產「十萬卡」集羣開始落地

2025-06-30 08:25

在人工智能飛速發展的當下,算力已然成為核心競爭力的關鍵要素。由顯卡規模撐起的算力水平,是決定大模型性能的最重要指標之一。一般認為,1萬枚英偉達A100芯片,是做好AI大模型的算力門檻。

2024 年,我國智算中心建設駛入快車道,最明顯的感受就是萬卡集羣項目加速落地。萬卡集羣,是指由一萬張及以上 GPU、TPU 等專用 AI 加速芯片組成的高性能計算系統,它深度融合高性能 GPU 計算、高速網絡通信、大容量並行文件存儲以及智能計算平臺等前沿技術,將底層基礎設施整合成一臺超級強大的 「算力巨獸」。藉助這樣的集羣,千億乃至萬億參數規模的大模型訓練得以高效完成,大幅縮短模型迭代周期,助力 AI 技術快速進化。

然而,隨着AGI的概念持續火熱,行業對算力的渴求愈發強烈,「萬卡集羣」 逐漸難以滿足爆發式增長的需求,算力領域的 「軍備競賽」 愈演愈烈。如今,十萬卡集羣已成為全球頂尖大模型企業的 「兵家必爭之地」,xAI、Meta、OpenAI 等國際巨頭紛紛佈局,國內企業也不甘示弱,積極投身這場算力角逐。

十萬卡集羣挑戰巨大

在全球範圍內,OpenAI、微軟、xAI 和 Meta 等頭部科技公司競相構建超 10 萬卡規模的 GPU 集羣。這一宏大計劃背后,是驚人的資金投入,僅服務器成本就超過 40 億美元。此外,數據中心的空間限制、電力供應不足等問題,也如同攔路虎,阻礙着項目推進。

而在國內,建一個萬卡集羣,單是GPU的採購成本就高達幾十億,因此國內能夠部署萬卡規模集羣的,原本就只有阿里、百度等寥寥幾家大廠。而想要部署十萬卡集羣,其「燒錢」程度可想而知。

除了資金成本,十萬卡集羣建設還面臨着諸多技術難題。

首先是電力與散熱的極限考驗。十萬卡H100 集羣僅關鍵 IT 設備就需約 150MW 電力,遠超單個數據中心建築的承載能力,需通過園區多建築分佈式部署實現電力分配,同時還要應對電壓波動與穩定性難題。而散熱系統更需匹配巨量熱負荷 — 高密度 GPU 運行時產生的熱量若無法及時疏導,將直接導致設備宕機,高效散熱方案的能耗與維護成本也需同步優化。GPU是一種很敏感的硬件,連一天之內氣温的波動,都會影響到GPU的故障率,而且規模越大,出故障的概率就越高。Meta訓練llama3的時候,用了1.6萬張GPU卡的集羣,平均每3小時就會出一次故障。

此外,區別於傳統CPU集羣的串行特點,大模型訓練過程需要全部顯卡同時參與並行計算,對網絡傳輸能力也提出了更大的挑戰。若採用胖樹拓撲實現全GPU 高帶寬互聯,四層交換的硬件成本將呈指數級增長,因此通常採用 「計算島」 模式:島內以高帶寬保障通信效率,島間則降低帶寬以控制成本。但這要求在張量並行、數據並行等不同訓練模式下,精準平衡通信任務分配,避免因拓撲設計缺陷導致帶寬瓶頸。尤其當模型規模突破萬億參數時,前端網絡的通信量會隨稀疏技術應用急劇增加,延迟與帶寬的優化需精細化權衡。

最后,相比於美國同行,中國大模型企業還面臨一重特殊的困難。由於總所周知的原因,國內企業無法像馬斯克那樣全部採用英偉達方案,而是需要使用包括國產GPU在內的異構芯片。這也意味着,即使同樣十萬張顯卡,國內企業在算力規模上也很難同美國企業匹敵。

算力是大模型發展的核心,但算力的增長已從線性變為平面。構建十萬卡集羣不僅是算力的增長,還涉及技術和運營挑戰,管理10萬卡集羣與萬卡集羣有本質區別。

國產「十萬卡」集羣加速落地

「芯片問題其實沒必要擔心,用疊加和集羣等方法,計算結果上與最先進水平是相當的。」 華為總裁任正非的這番表態,不僅增強了社會各界對中國 AI 發展的信心,也凸顯了集羣計算在 AI 研發應用中的關鍵地位。從曾經的 「萬卡集羣」 入場券,到如今 「十萬卡集羣」 新目標,國內智算中心建設不斷邁向新高度。

去年9月,一項瞄準十萬卡超大規模算力的單體集羣建設計劃——「算海計劃」二期宣佈落地啟動。「算海計劃」取「海納百川、聚沙成塔」之義,劍指籌建面向模型訓練的大規模單體集羣。據介紹,「算海計劃」二期由北京並行科技股份有限公司(以下簡稱並行科技)發起,合作伙伴北京智譜華章科技有限公司、北京面壁智能科技有限責任公司、中國移動通信集團湖北有限公司武漢分公司、中國聯合網絡通信有限公司武漢市分公司、中國電信股份有限公司武漢分公司、武漢大學信息中心、內蒙古新東吉泰科技公司參與啟動儀式。在內蒙古和林格爾,佔地超50畝的「算海計劃」一期建設項目已於今年5月上線運營,該項目規劃有4000個20kW高功率智算機櫃,最大可支持建設6萬卡規模的單體智算集羣。在距離該項目不超過100米處,「算海計劃」二期項目已規劃上馬,二期將依託單一大集羣進行統一管理和調度,可容納高達10萬卡的強大算力資源。

2024年7月底,甘肅億算智能科技有限公司已在慶陽投資3.07億元建成了中國首個國產萬卡推理集羣。而在今年6月,甘肅億算及其生態合作伙伴計劃出資55億元,建設「國產十萬卡算力集羣」,提供不低於2.5萬P算力服務,預計於2027年12月30日前建成並投入使用。本次擬落地慶陽的十萬卡算力集羣,計劃全部採用國產芯片與自主架構,深度融合慶陽能源優勢與長三角技術勢能,構建「西部算力+東部智慧」全國聯動,打造開放算力平臺,為AI大模型訓練與科學計算築牢「中國底座」。

字節跳動在智算領域的佈局同樣雄心勃勃。2024 年,其資本開支達 800 億人民幣,接近 BAT 三家總和(約1000億人民幣)。預計 2025 年,這一數字將翻倍至 1600 億人民幣,其中 900 億用於 AI 算力採購,700 億投向數據中心基礎設施建設及配套硬件。據第三方機構測算,以 400T (FP16) AI 算力卡為標準,字節跳動當前訓練算力需求約為 26.73 萬張卡,文本推理算力需求約為 33.67 萬張卡,未來推理算力需求有望突破 230 萬張卡。

國產AI芯片公司,得到利好

在這股熱潮中,有能力建設十萬卡集羣的國產AI芯片公司也將獲得利好。

在6月20日舉行的華為開發者大會2025(HDC 2025)上,華為常務董事、華為雲計算CEO張平安宣佈,基於CloudMatrix384超節點的新一代昇騰AI雲服務全面上線,為大模型應用提供澎湃算力。 通過432節點級聯,可構建16萬卡超算集羣,滿足十萬億參數級大模型訓練需求,突破傳統架構擴展極限。

華為雲新一代昇騰AI雲服務基於CloudMatrix384超節點,首創將384顆昇騰NPU和192顆鯤鵬CPU通過全新高速網絡MatrixLink全對等互聯,形成一臺超級「AI服務器」,單卡推理吞吐量躍升到2300 Tokens/s。

超節點架構能更好地支持混合專家MoE大模型的推理,可以實現「一卡一專家」,一個超節點可以支持384個專家並行推理,極大提升效率。同時,超節點還可以支持「一卡一算力任務」,靈活分配資源,提升任務並行處理,減少等待,將算力有效使用率(MFU)提升50%以上。同時,超節點還可以支持訓推算力一體部署,如「日推夜訓」,訓推算力可靈活分配,幫助客户資源使用最優。

此外,百度的百舸4.0通過HPN高性能網絡、自動化混訓切分策略、自研集合通信庫等一系列產品技術創新,已經能夠實現十萬卡集羣的高效管理。

騰訊去年也宣佈了自研星脈高性能計算網絡全面升級,星脈網絡2.0搭載全自研的網絡設備與AI算力網卡,能夠支持超10萬卡大規模組網,網絡通信效率比上一代提升60%,讓大模型訓練效率提升20%。

阿里方面同樣釋出消息,阿里雲可實現芯片、服務器、數據中心之間的高效協同,支持10萬卡量級的集羣可擴展規模,已服務全國一半的人工智能大模型企業。

算力互聯網和東數西算打通市場堵點

當前,我國智能算力供不應求的問題較為突出,大模型對算力的需求增速遠超單顆AI芯片性能的提升步伐。相關報告顯示,2023年,中國智能算力需求達123.6EFLOPS,而供給僅為57.9EFLOPS,供需缺口一目瞭然。利用集羣互聯彌補單卡性能短板,或是現階段緩解AI算力荒最值得探索與實踐的有效途徑。

「十萬卡集羣」建成后如何充分挖掘其應用價值,使其在人工智能訓練、大數據分析等適配場景發揮最大作用,杜絕資源空置與浪費現象的問題亟待解決。智算中心的建設只是一個開端,更重要的是后續的有效運用。也就是説,如何打通市場堵點纔是關鍵。在此背景下,為解決相關市場堵點,算力互聯網和東數西算被提出並受到廣泛關注。

算力互聯網,並非一張全新的網絡,而是基於現有互聯網,將各地分散的算力資源連接起來,藉助標準化的算力標識與協議接口,跨域實現資源互聯網絡,達成全網異構算力的智能感知、實時發現與隨需獲取。簡單來説,它就是一張服務於算力流動的網絡,旨在進一步推動算力的互聯互通,盤活現有算力資源,提升使用效率,降低使用成本,為用户帶來更優質的體驗。5月17日,中國信通院會同三大運營商聯合啟動「算力互聯網試驗網」建設,併發布《算力互聯網體系架構 1.0》。這一舉措旨在面向通算、智算、超算,以及雲、邊、端等公共算力資源,實現三家運營商自有算力和全國分散社會算力的互聯,讓用户能便捷地「找、調、用」算力。未來,用户有望像按「千瓦時」用電一樣,按「卡時」靈活購買使用算力資源,實現用多少買多少的便捷服務。

而東數西算工程,則是通過構建數據中心、雲計算、大數據一體化的新型算力網絡體系,把東部的算力需求有序引導至西部,優化數據中心建設佈局,促進東西部協同聯動。2022年2月,國家在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏8地啟動建設國家算力樞紐節點,並規劃10個國家數據中心集羣,標誌着東數西算工程正式全面啟動。其核心目的是讓西部的算力資源更充分地支撐東部數據的運算,為數字化發展賦能。一方面,能緩解東部能源緊張問題;另一方面,為西部開闢新的發展道路。

通過算力互聯網和東數西算的協同推進,有望打通市場堵點,優化算力資源配置,推動我國AI產業的持續健康發展。一方面,算力互聯網能實現算力資源的跨區域、跨行業流通,提升資源利用效率;另一方面,東數西算可利用西部的能源和土地資源優勢,降低算力成本,同時緩解東部的數據中心建設壓力。二者相輔相成,共同為我國智能算力供需失衡問題提供解決方案。

如果説2024年是我國萬卡集羣的元年,2025年,十萬卡集羣也要來了。

本文來自微信公眾號「半導體產業縱橫」(ID:ICViews),作者:鵬程,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。