熱門資訊> 正文
2025-05-24 12:32
IT之家 5 月 24 日消息,當地時間周四,英偉達宣佈其 Blackwell GPU 在 4000 億參數的 MetaLlama 4 Maverick 模型上成功打破了 LLM 推理速度世界紀錄。
據介紹,AI 基準測試機構 Artificial Analysis 通過配置 8 塊 Blackwell GPU 的 DGX B200 節點,首次實現每用户每秒生成 1000 個 token(TPS)的性能里程碑。
英偉達表示,技術團隊通過 TensorRT-LLM 軟件棧實施深度優化,並採用 EAGLE-3 技術訓練推測解碼草稿模型,使其性能較優化前基準提升 4 倍。整套服務器系統在峰值吞吐配置下可達每秒 72,000 token。
英偉達解釋稱:「推測解碼是通過小型快速草稿模型預測 token 序列,再由大型目標 LLM 並行驗證的加速技術。其優勢在於單次迭代可能生成多個 token,代價是額外的草稿模型計算開銷。」
為實現該突破,工程師團隊採用基於 EAGLE3 的軟件架構。該架構專為大型語言模型推理加速設計,與 GPU 硬件架構形成協同效應。IT之家注意到,測試結果顯示 Blackwell 架構已完全適配 Llama 4 Maverick 級別的超大規模語言模型。
英偉達還表示,他們在保持響應準確性的同時大幅提高了性能。在許多指標上,使用 FP8 數據格式的準確性與人工分析 BF16 相當。