繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

商湯大裝置成功適配昇騰384超節點,共創AI基礎設施新未來

2025-09-05 18:41

(來源:華為計算)

近日,商湯攜手昇騰AI基於商湯大裝置SenseCore與昇騰384超節點合作創新,在集羣適配、功能性能上全面達成預期目標,雙方團隊緊密合作,在調度優化、系統穩定性以及故障恢復等方面取得多項技術創新突破,為大模型高效訓練與推理,進一步釋放昇騰AI澎湃性能,全面加速昇騰384超節點在各行各業的創新和應用落地提供了堅實支撐。

超節點(SuperPod)是一種通過高速互聯技術,將多個GPU/NPU整合為統一計算單元的新型架構,解決AI大模型訓練中的算力協同與通信效率問題。

今年5月,在鯤鵬昇騰開發者大會上,華為推出了昇騰384超節點(Atlas 900 A3 SuperPoD),實現高速互聯總線的關鍵突破——把總線從服務器內部擴展到整機櫃、甚至跨機櫃,最終將CPU、NPU、DPU、存儲和內存等資源全部互聯和池化,形成一臺「超級計算機」,實現更大的算力密度和互聯帶寬。

與此同時,這一全新方案架構,也對軟件棧的升級和平臺調度優化提出了更高要求,讓它能「跑得快、跑得穩」。

作為AI雲原生平臺,商湯大裝置SenseCore致力於為用户提供敏捷、靈活、可靠的全棧AI基礎設施服務,以極致性價比推動大模型技術的高效落地與規模化應用。

基於商湯大裝置SenseCore與昇騰384超節點的特點,雙方團隊聯合攻關,在調度優化、系統穩定性以及故障恢復等方面提出多項技術創新:

調度優化:在調度能力上,除了支持POD內單機和多機調度、跨POD多機調度、親和性調度等基礎能力,SenseCore平臺配合模型並行策略實現了邏輯超節點自動劃分,使EP/TP等大通信策略可以充分利用高速互聯總線,提升模型訓練效率。

跨POD訓練穩定性:另外SenseCore團隊提交了多個MR修復多POD場景下master/work任務rank亂序問題,從根本上解決了跨POD訓練任務概率性失敗的問題。

多維度故障檢測與恢復:在故障檢測能力上覆蓋了從服務器硬件、高速互聯總線、RoCE網絡到任務、進程軟硬件多維度檢測,結合檢測能力實現Job/Pod/進程多級恢復機制,全面提升昇騰384超節點在訓練場景下的可靠性與容錯性。

此次商湯與昇騰AI的深度合作,讓多租户、大規模、彈性AI雲服務成為可能。

商湯科技大裝置事業羣CTO宣善明表示:「商湯大裝置非常重視並深度參與中國算力生態建設。SenseCore成為首批完成昇騰384超節點適配的AI雲平臺,不僅得益於SenseCore平臺的開放性、完善的功能和豐富的應用實踐,更是中國AI基礎設施融合發展的重要里程碑。SenseCore通過與昇騰的深度融合,充分釋放昇騰算力潛能,為產業界提供更加敏捷、智能、可靠的算力底座,商湯也將在此基礎上打造面向各行業的AI解決方案,共同推動千行百業的智能化升級。

未來,雙方還將探索更多應用場景,包括大模型推理加速、智能體應用部署、面向垂直行業的大模型訓練與推理優化等,進一步加速基於SenseCore的昇騰384超節點在各行各業的應用落地。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。