熱門資訊> 正文

英偉達Blackwell GPU突破AI算力瓶頸，實現 1000 TPS/User里程碑

2025-05-24 12:32

IT之家 5 月 24 日消息，當地時間周四，英偉達宣佈其 Blackwell GPU 在 4000 億參數的 MetaLlama 4 Maverick 模型上成功打破了 LLM 推理速度世界紀錄。

據介紹，AI 基準測試機構 Artificial Analysis 通過配置 8 塊 Blackwell GPU 的 DGX B200 節點，首次實現每用户每秒生成 1000 個 token（TPS）的性能里程碑。

英偉達表示，技術團隊通過 TensorRT-LLM 軟件棧實施深度優化，並採用 EAGLE-3 技術訓練推測解碼草稿模型，使其性能較優化前基準提升 4 倍。整套服務器系統在峰值吞吐配置下可達每秒 72,000 token。

英偉達解釋稱：「推測解碼是通過小型快速草稿模型預測 token 序列，再由大型目標 LLM 並行驗證的加速技術。其優勢在於單次迭代可能生成多個 token，代價是額外的草稿模型計算開銷。」

為實現該突破，工程師團隊採用基於 EAGLE3 的軟件架構。該架構專為大型語言模型推理加速設計，與 GPU 硬件架構形成協同效應。IT之家注意到，測試結果顯示 Blackwell 架構已完全適配 Llama 4 Maverick 級別的超大規模語言模型。

英偉達還表示，他們在保持響應準確性的同時大幅提高了性能。在許多指標上，使用 FP8 數據格式的準確性與人工分析 BF16 相當。

推薦文章

風險及免責提示：以上內容僅代表作者的個人立場和觀點，不代表華盛的任何立場，華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前，應結合自身情況，考慮投資產品的風險。必要時，請諮詢專業投資顧問的意見。華盛不提供任何投資建議，對此亦不做任何承諾和保證。