繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

英偉達Blackwell GPU突破AI算力瓶頸,實現 1000 TPS/User里程碑

2025-05-24 12:32

IT之家 5 月 24 日消息,當地時間周四,英偉達宣佈其 Blackwell GPU 在 4000 億參數的 MetaLlama 4 Maverick 模型上成功打破了 LLM 推理速度世界紀錄。

據介紹,AI 基準測試機構 Artificial Analysis 通過配置 8 塊 Blackwell GPU 的 DGX B200 節點,首次實現每用户每秒生成 1000 個 token(TPS)的性能里程碑。

英偉達表示,技術團隊通過 TensorRT-LLM 軟件棧實施深度優化,並採用 EAGLE-3 技術訓練推測解碼草稿模型,使其性能較優化前基準提升 4 倍。整套服務器系統在峰值吞吐配置下可達每秒 72,000 token。

英偉達解釋稱:「推測解碼是通過小型快速草稿模型預測 token 序列,再由大型目標 LLM 並行驗證的加速技術。其優勢在於單次迭代可能生成多個 token,代價是額外的草稿模型計算開銷。」

為實現該突破,工程師團隊採用基於 EAGLE3 的軟件架構。該架構專為大型語言模型推理加速設計,與 GPU 硬件架構形成協同效應。IT之家注意到,測試結果顯示 Blackwell 架構已完全適配 Llama 4 Maverick 級別的超大規模語言模型。

英偉達還表示,他們在保持響應準確性的同時大幅提高了性能。在許多指標上,使用 FP8 數據格式的準確性與人工分析 BF16 相當。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。