熱門資訊> 正文
2025-10-15 19:01
10月9日,微軟Azure宣佈全球首個生產級NVIDIA GB300 NVL72超算集羣正式上線。該集羣專為OpenAI的工作負載量身定製,將加速多萬億參數模型的開發和部署。
超級集羣
該GB300 NVL72集羣規模宏大,集成了超過4600個NVIDIA Blackwell Ultra GPU(換算下來應該是64台GB300 NVL72),通過NVIDIA Quantum-X800 InfiniBand網絡平臺實現互聯,形成一個統一的加速器系統。
集羣每個機架級系統(NVL72)包含72個Blackwell Ultra GPU和36個NVIDIA Grace CPU,總計37TB快速內存,提供1.44 exaflops(每秒1.44億億次浮點運算)的FP4 Tensor Core性能。
在機架內部,第五代NVIDIA NVLink Switch實現了130 TB/s的全對全帶寬,確保高效的數據傳輸。在網絡方面,該集羣採用全胖樹(fat-tree)非阻塞架構,每GPU提供800 Gb/s的跨機架帶寬,支持數萬個GPU的無縫擴展。
此外,NVIDIA引入了自定義協議、集體庫和SHARP v4(Scalable Hierarchical Aggregation and Reduction Protocol),進一步加速集體操作並提升有效帶寬一倍。
超級能效
該系統還優化了功耗管理,通過集成電解電容器的電源供應單元(PSU)實現功率平滑,減少電網波動。 在穩態運行中,能量存儲系統可在峰值時放電、在低谷時充電,降低峰值電網需求高達30%,並避免電壓尖峰或驟降等問題。
性能基準測試顯示,該集羣在MLPerf Inference v5.1中創下紀錄,例如在6710億參數的DeepSeek-R1推理模型上,每GPU吞吐量比NVIDIA Hopper架構高出5倍。它支持訓練周期從數月縮短至數周,並處理數百萬億參數的模型,特別適用於推理模型、代理AI系統和多模態生成AI。
GB300 NVL72採用全技術和獨立熱交換器,顯著降低冷卻能耗,同時最小化水資源消耗。這對構建綠色、高效設施時具有啓發意義。未來,微軟計劃將Blackwell Ultra GPU擴展至數十萬個,覆蓋全球AI數據中心。
「超算」?
微軟並沒有明確該集羣部署的具體地點,只是聲稱該集羣部署在微軟Azure的全球AI數據中心網絡中,並強調了「全球部署」(worldwide deployments),且計劃在多個地區擴展。
微軟Azure與NVIDIA的深度合作由來已久。雖然微軟沒有直接參與「星際之門」計劃,但Azure一直持續的為OpenAI提供算力支撐服務。此次部署也是雙方在硬件、系統、供應鏈和設施等多領域的共同成果。
微軟自身與多家行業媒體,均稱呼該集羣為「超級計算集羣(Supercomputing Cluster)」,但有別於傳統的超級計算機。
傳統超算,如「天河二號」或美國「Frontier」等,計算精度通常為常以FP64或FP32,這是因為科學計算(如氣候模擬、分子動力學、流體力學)需要高精度以確保結果的準確性。如TOP500榜單的標準測試HPL(High Performance Linpack)基於FP64,強調數值穩定性。
而GB300 NVL72集羣的主打精度為FP4,單機架提供1.44 exaflops的FP4 Tensor Core性能,專為AI訓練和推理優化。AI負載對精度要求低,而降低精度又能顯著提升計算效率,因此新的AI芯片精度普遍採用低精度模式。
不過,精度低並不意味着技術含量低。微軟Azure的NVIDIA GB300 NVL72集羣因其exaflops級性能、高並行架構、AI優化設計和先進能效管理,毫無疑問稱得起是一臺超級計算機,也是當前AI超算的新標杆。
|文章來源:中國IDC圈