熱門資訊> 正文
2025-07-24 11:44
2025年 7月 15日,英偉達 CEO黃仁勛宣佈了一個震動AI 圈的消息:美國政府即日起解除H20芯片對華銷售禁令,而就在禁令解除后,雲工場科技發佈詳細測試數據--- 8卡 141GB顯存的H20服務器,能流暢運行 671B參數的滿血版非量化DeepSeek-R1模型,推理吞吐量突破預期。
硬核實測:141GB H20跑滿血版非量化DeepSeek性能全面解析
測試環境配置
一.測試數據
二.關鍵性能測試結果
測試顯示:
1.首token響應快:在測試的多個併發量下,首個 Token的響應時間(TTFT)都保持在3秒以內(實測0.1s - 2.8s),用户體驗非常流暢,感覺不到任何延迟。
2.高併發吞吐大: H20顯卡展現出優秀的併發處理能力。在模擬100個用户同時提問(併發請求=100)的中高負載場景下:
·處理短問題(輸入/輸出各256 tokens),系統總吞吐量高達約 1124 tokens/s。
·處理典型問題(輸入/輸出各1K tokens),總吞吐量穩定在約 1100 tokens/s。
·處理複雜問題/長對話(輸入/輸出各 2K tokens),總吞吐量仍能保持約 1020 tokens/s。
分場景性能趨勢:
1.低併發場景(<10用户):
·響應極快: TTFT 始終低於0.9秒,用户幾乎感覺不到等待。
·吞吐未飽和:系統能力遠未被充分利用,吞吐量相對較低(32-208 tokens/s),性能表現輕松自如。
2.中高併發場景(50-100用户):
·響應依然迅速: TTFT保持在1.9秒 (1K上下文)到 2.8秒 (2K上下文),交互體驗依然流暢。
·吞吐大幅躍升:系統資源得到高效利用,總吞吐量急劇上升至634 - 1124 tokens/s。
·長上下文優勢顯現:在相同併發下,處理更長(1K/2K)的上下文通常能獲得比短上下文(256)更高的吞吐量(尤其在併發50時最明顯),充分體現了 vLLM對長文本的優化效果。
3.極限場景(100用户+ 長上下文2K):
·響應可控: TTFT為 2.8秒,交互體驗依然流暢。
·吞吐維持高位:即使在此壓力下,系統總吞吐量仍達 1020 tokens/s。
三.測試總結
雲工場科技構建了全面的異構計算資源池,涵蓋 NVIDIA全系高性能GPU(包括141GB顯存 H20、L20、RTX 4090等最新型號)、AMD w7900以及國產算力三巨頭(華為昇騰910B 系列、百度崑崙芯 P800、燧原S60)等等,可本地部署到就近機房,提供DeepSeek、文心一言、華為盤古、LLaMA等開源大模型本地部署。
通過嚴格的橫向性能基準測試,雲工場科技驗證了不同架構GPU在 LLM推理、計算機視覺等場景的能效比差異,併爲客户提供"算力租賃+ 算力智能調度+ 平臺化交付"的完整AI服務體系,目前已在教育/工業/通信/交通等多領域成功落地,支撐其大模型部署、推理及場景化落地的全流程需求。