熱門資訊> 正文
2025-07-31 07:00
在AI浪潮的洶涌推動下,大模型的迅猛發展對算力提出了近乎苛刻的要求。萬億參數大模型與多模態訓練的興起,促使算力集羣跑步邁入「萬卡協同」時代。
傳統算力架構已難以滿足高效、低耗、大規模協同的AI訓練需求,行業亟需一場技術革新。在此背景下,超節點(SuperPod)——這一由英偉達率先提出的Scale Up(縱向擴展)解決方案,憑藉其高性能、低成本、高能效等優勢,迅速成為全球科技巨頭競逐的「新戰場」。
據中科院物理所介紹,超節點的英文名叫SuperPod,是英偉達最先提出的概念。作為Scale Up的當前最優解,它通過內部高速總線互連,能夠有效支撐並行計算任務,加速GPU之間的參數交換和數據同步,縮短大模型的訓練周期。
在2025世界人工智能大會期間,從華為昇騰384超節點的「真機首秀」,到曦智科技光互連方案的「SAIL獎折桂」,中國企業在超節點領域的全面開花,不僅標誌着算力集羣正式邁入「萬卡協同」時代,更預示着AI基礎設施的競爭已從單點突破升級為系統工程級的生態較量。
超節點成AI算力「新寵」
超節點,究竟好在哪里?
一般而言,構建大規模GPU集羣,行業主要採用Scale Out(橫向擴展)以及Scale Up(縱向擴展)兩種方式。
有業內人士指出,相較於傳統方案Scale Out,Scale Up在性能、成本、組網、運維等方面存在優勢。而超節點就是Scale Up的最佳方案。
「超節點架構通過深度整合GPU資源,在超節點內構建起低延迟、高帶寬的統一算力實體,已成為支撐這一演進的關鍵技術路徑。」壁仞科技OCS超節點項目相關負責人董朝鋒對21世紀經濟報道記者表示。
「當前傳統風冷AI服務器的功率密度已逼近極限。一個標準機櫃塞滿8張高功耗GPU服務器,其散熱和供電挑戰巨大。」董朝鋒指出。
在他看來,超節點通過液冷等先進散熱技術,將數十甚至上百個計算單元整合在一個高度集成的機櫃或機組中,極大地提升了算力密度和能源效率(PUE)。
中信建投研報對超節點市場前景持樂觀態度。其指出,超節點作為重要的產業趨勢,已經被國內外眾多服務器選為下一代方案,同時大部分的超節點方案都會採用銅連接作為主要承載載體。
當前,通信網絡中常見的連接方案包括光通信和高速電通信,無源DAC作為電通信的主要解決方案,不包含光電轉換器模塊,具有很高的成本效益和運營可靠性,成為實現短距離傳輸的優秀解決方案。
目前的銅纜已經實現224G以太網SerDes高速通信技術升級,短距離傳輸性價比突出,在AI服務器高集成度的趨勢下,銅連接呈現一定的趨勢放量。
當前,業界主流的超節點方案主要包括私有協議方案和開放組織方案兩種,私有協議主要包括英偉達、Trainium方案、華為方案等。
「在英偉達方案中,GB200 NVL72服務器採用大量的銅連接作為機櫃內部通訊方式,GB200 NVL72機櫃中不同的計算托盤間採用電纜進行互聯,內部使用電纜長度累計接近2英里,共有5000多條獨立電纜。」上述研報指出。
而計算托盤內同樣採用大量銅連接作為服務器內的GPU芯片互聯。在開放協議中,目前的開放標準不止一個,基本上都是以以太網技術(ETH)為基礎,以太網技術最成熟、最開放,也擁有最多的參與企業。
超節點開放標準方面,中心建投指出,比較有代表性的是由開放數據中心委員會(ODCC)主導、中國信通院與騰訊牽頭設計的ETH-X開放超節點項目。在ETH-X的架構中,分為Scale Up和Scale Out兩個主要組網部分,其中Scale Up網絡負責HBD內部GPU之間的互聯,HBD可以由一個或者多個高功率Rack組成,通過Scale Up進行擴展;多個HBD通過Scale Out的擴展方式組成更大的GPU集羣。
值得注意的是,該機構提到,國內字節、阿里、騰訊新一代服務器分別採用超節點設計,預期將進一步帶動銅連接整體市場空間。
科技企業紛紛佈局
面對超節點這一算力新領域,國內科技企業積極佈局。
其中,華為在超節點領域進展顯著。今年5月23日,華為於鯤鵬昇騰開發者大會上發佈昇騰384超節點,實現業界最大規模的384卡高速總線互聯,具備超大帶寬、超低時延、超強性能的三大優勢。
在2025世界人工智能大會上,華為首次展示了昇騰384超節點真機。
除了昇騰384之外,大會上,曦智科技聯合壁仞科技、中興通訊推出全球首個分佈式光互連光交換GPU超節點解決方案——光躍LightSphereX。
記者獲悉,該超節點基於曦智科技分佈式光交換技術,採用硅光技術的光互連光交換芯片和壁仞科技大算力通用GPU液冷模組等構建。
與此同時,曦智科技與沐曦合作的光互連電交換超節點方案也在會上首次公開亮相,進一步豐富了超節點的技術路線。
而燧原科技的雲燧ESL超節點系統,在測試中表現出良好性能,單節點最高64卡全帶寬互聯,採用液冷方案,目標是高性價比、高密度、高能效。
而沐曦發佈的旗艦GPU曦雲C600,支持MetaXLink超節點擴展技術,並且內置ECC/RAS多重安全防護模塊。
此外,記者獲悉,摩爾線程已經建立了涵蓋AI訓練智算卡、AI推理卡、AI超節點服務器及誇娥(KUAE)智算集羣在內的全棧AI智算產品線。
在2025世界人工智能大會召開前夕,摩爾線程創始人兼CEO張建中提出構建新一代AI訓練基礎設施,為AGI時代打造生產先進模型的「超級工廠」。
據張建中介紹,這座「AI工廠」的智能「產能」,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產效率=加速計算通用性×單芯片有效算力×單節點效率×集羣效率×集羣穩定性。
他指出,當單節點效率達到新高度,如何實現大規模集羣的高效協作成為新的挑戰。摩爾線程自研KUAE計算集羣通過5D大規模分佈式並行計算技術,實現上千節點的高效協作,推動AI基礎設施從單點優化邁向系統工程級突破。
在業內人士看來,當單點突破升維為體系化競爭力,中國超節點技術正在為全球人工智能發展鋪設一條兼具性能與包容性的新賽道,其價值有望持續釋放。
(作者:雷晨 編輯:朱益民)