繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

商湯大裝置發佈基於DeepLink的異構混合調度方案,加速國產算力從「可用」邁向「好用」

2025-07-29 16:53

  7月28日,在2025世界人工智能大會(WAIC)期間,商湯大裝置發佈基於DeepLink的異構混合調度方案,將DeepLink深度融入商湯大裝置核心能力體系。該方案針對當前國產算力資源碎片化、異構芯片調度複雜、跨域訓練穩定性不足等行業挑戰,全面提升異構集羣的協同效率與運行可靠性,加速國產AI算力從「可用」邁向「好用」,為大模型訓練提供強大而高效的支撐能力。

  活動現場,商湯大裝置事業羣產品總經理盧國強和上海人工智能實驗室DeepLink高級解決方案專家王峰在WAIC UP魔盒直播間進行解讀,詳細介紹了相關的技術原理與產業價值。

  【WAIC 2025直播間主題分享】

  打通軟硬壁壘,構建AI算力協同新路徑

  DeepLink是由上海人工智能實驗室(上海AI實驗室)推出的人工智能開放計算體系,其目標是搭建在硬件芯片與深度學習軟件框架之間進行適配的橋樑,共建開放的軟硬件適配生態。DeepLink把AI芯片與基礎框架連接起來,上下游廠商基於DeepLink一次適配即可接入廣泛的算法生態,實現軟硬件解耦,破除生態壁壘。

  當下,大規模集羣建設的同時,仍然存在軟硬件優化適配不足、資源利用率低、供需失衡等問題。為更好的推進問題解決,上海AI實驗室率先探索並研發了DeepLink超大規模跨域混訓技術方案,通過訓練加速、異構通信、並行策略等核心技術,打破芯片架構差異帶來的協同壁壘,重構計算資源調度體系。

  今年2月,上海AI實驗室聯合包括商湯在內的十余家合作伙伴,於上海建成了超大規模跨域混訓集羣原型,並已在千億量級參數的自研模型上,完成20天不間斷長穩訓練,效率達單一芯片集羣的90%。此突破成果為快速實現智算中心互聯、支撐超大模型混訓提供可行技術保障。其中,商湯大裝置為超大規模的混訓集羣提供了算力調度和管理平臺,從而支持了多芯集羣的穩定運行。

  共建異構算力生態,釋放超大規模異構算力集羣價值

  基於DeepLink的異構混合調度方案的發佈,是商湯大裝置與上海AI實驗室長期協作的重要成果。商湯大裝置與DeepLink的深度融合,具備以下特點:

  ·多芯片協同調度:可實現多種國產芯片之間的協同通信與統一調度,並自動進行並行策略優化和負載均衡,真正做到「不同芯片,同一平臺」的協同工作,釋放異構集羣的計算潛力。

  ·高效混訓,穩定可控:顯著提升了異構調度與彈性算力能力,以秒級彈性伸縮、分鍾級故障恢復等,保障大模型訓練過程穩定、高效、可控。

  ·支持主流模型全流程運行:方案兼容DeepSeek、InternLM、LLaMA、Qwen等主流大模型,適配稠密模型與MoE架構,支持訓練與推理的高效執行。

  商湯大裝置事業羣產品總經理盧國強表示:「通過基於DeepLink的異構混合調度方案,商湯大裝置將為更多GPU適配、訓練和推理場景擴展、商業化落地提供更強助力。未來,商湯大裝置將與上海人工智能實驗室持續深化合作,加快國產AI算力芯片的適配與優化,共築國產AI生態底座,為智能時代的產業升級注入源源不斷的技術動能。」

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。