繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

國產AI算力實現重大突破,兩大巨頭聯手打通「超級大腦」

2025-09-05 10:20

近日,商湯大裝置SenseCore與昇騰384超節點率先完成全面適配,在功能與性能驗證中均達到預期目標。這一合作標誌着國產AI算力在系統級協同與工程化落地方面取得關鍵進展,推動國產高性能計算架構從「可用」真正走向「好用」,為大模型訓練與推理提供了更穩定、高效的算力基座。

超節點(SuperPod)作為當前AI算力基礎設施的重要形態,通過高速互聯將多個NPU/GPU整合為統一計算單元,旨在破解大規模模型訓練中的算力協同與通信效率瓶頸。華為昇騰384超節點憑藉其「全對等架構」實現跨服務器、跨機櫃的系統級資源池化,將CPU、NPU、DPU、存儲等組件高速互聯,構建出媲美超級計算機的算力密度與帶寬能力。

然而,此類大規模異構算力系統也對軟件棧、調度能力和系統可靠性提出了極高要求。商湯SenseCore作為全棧AI雲原生平臺,與華為昇騰團隊聯合攻關,在調度優化、系統穩定性與故障恢復等方面實現多項行業創新,顯著提升超節點在真實場景中的可用性與訓練效率。

商湯聯合華為昇騰,實現超節點適配多項創新

華為昇騰推出的與此同時,這一全新方案架構,也對軟件棧的升級和平臺調度優化提出了更高要求,讓它能「跑得快、跑得穩」。

作為AI雲原生平臺,商湯大裝置SenseCore致力於為用户提供敏捷、靈活、可靠的全棧AI基礎設施服務,以極致性價比推動大模型技術的高效落地與規模化應用。

基於商湯大裝置SenseCore與昇騰384超節點的特點,雙方團隊聯合攻關,在調度優化、系統穩定性以及故障恢復等方面提出多項行業創新:

  • 調度優化:在調度能力上,除了支持POD內單機和多機調度、跨POD多機調度、親和性調度等基礎能力,SenseCore平臺配合模型並行策略實現了邏輯超節點自動劃分,使EP/TP等大通信策略可以充分利用靈衢網絡,提升模型訓練效率。

  • 跨POD訓練穩定性:另外SenseCore團隊提交了多個MR修復多POD場景下master/work任務rank亂序問題,從根本上解決了跨POD訓練任務概率性失敗的問題。 

  • 多維度故障檢測與恢復:在故障檢測能力上覆蓋了從服務器硬件、高速互聯總線、RoCE網絡到任務、進程軟硬件多維度檢測,結合檢測能力實現Job/Pod/進程多級恢復機制,全面提升昇騰384超節點在訓練場景下的可靠性與容錯性。

此次商湯大裝置SenseCore與昇騰384超節點的成功適配,讓多租户、大規模、彈性AI雲服務成為可能。未來,雙方還將探索更多應用場景,包括大模型推理加速、智能體應用部署、面向垂直行業的大模型訓練與推理優化等,進一步加速基於SenseCore的昇騰384超節點在各行各業的應用落地。

商湯科技大裝置事業羣CTO宣善明表示:「商湯大裝置非常重視並深度參與國產化算力生態建設。SenseCore成為首批完成昇騰384超節點適配的AI雲平臺,不僅得益於SenseCore平臺的開放性、完善的功能和豐富的應用實踐,更是國產AI基礎設施融合發展的重要里程碑。SenseCore通過與昇騰的深度融合,充分釋放昇騰算力潛能,為產業界提供更加敏捷、智能、可靠的算力底座,商湯也將在此基礎上打造面向各行業的AI解決方案,共同推動千行百業的智能化升級」。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。