繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

禁令解除72小時:141GB H20 跑滿血實測,DeepSeek 性能超預期

2025-07-24 11:44

2025年 7月 15日,英偉達 CEO黃仁勛宣佈了一個震動AI 圈的消息:美國政府即日起解除H20芯片對華銷售禁令,而就在禁令解除后,雲工場科技發佈詳細測試數據--- 8卡 141GB顯存的H20服務器,能流暢運行 671B參數的滿血版非量化DeepSeek-R1模型,推理吞吐量突破預期。

硬核實測:141GB H20跑滿血版非量化DeepSeek性能全面解析

測試環境配置

一.測試數據

二.關鍵性能測試結果

  測試顯示:

  1.首token響應快:在測試的多個併發量下,首個 Token的響應時間(TTFT)都保持在3秒以內(實測0.1s - 2.8s),用户體驗非常流暢,感覺不到任何延迟。

  2.高併發吞吐大: H20顯卡展現出優秀的併發處理能力。在模擬100個用户同時提問(併發請求=100)的中高負載場景下:

  ·處理短問題(輸入/輸出各256 tokens),系統總吞吐量高達約 1124 tokens/s。

  ·處理典型問題(輸入/輸出各1K tokens),總吞吐量穩定在約 1100 tokens/s。

  ·處理複雜問題/長對話(輸入/輸出各 2K tokens),總吞吐量仍能保持約 1020 tokens/s。

  分場景性能趨勢:

  1.低併發場景(<10用户):

  ·響應極快: TTFT 始終低於0.9秒,用户幾乎感覺不到等待。

  ·吞吐未飽和:系統能力遠未被充分利用,吞吐量相對較低(32-208 tokens/s),性能表現輕松自如。

  2.中高併發場景(50-100用户):

  ·響應依然迅速: TTFT保持在1.9秒 (1K上下文)到 2.8秒 (2K上下文),交互體驗依然流暢。

  ·吞吐大幅躍升:系統資源得到高效利用,總吞吐量急劇上升至634 - 1124 tokens/s。

  ·長上下文優勢顯現:在相同併發下,處理更長(1K/2K)的上下文通常能獲得比短上下文(256)更高的吞吐量(尤其在併發50時最明顯),充分體現了 vLLM對長文本的優化效果。

  3.極限場景(100用户+ 長上下文2K):

  ·響應可控: TTFT為 2.8秒,交互體驗依然流暢。

  ·吞吐維持高位:即使在此壓力下,系統總吞吐量仍達 1020 tokens/s。

三.測試總結

  雲工場科技構建了全面的異構計算資源池,涵蓋 NVIDIA全系高性能GPU(包括141GB顯存 H20、L20、RTX 4090等最新型號)、AMD w7900以及國產算力三巨頭(華為昇騰910B 系列、百度崑崙芯 P800、燧原S60)等等,可本地部署到就近機房,提供DeepSeek、文心一言、華為盤古、LLaMA等開源大模型本地部署。

  通過嚴格的橫向性能基準測試,雲工場科技驗證了不同架構GPU在 LLM推理、計算機視覺等場景的能效比差異,併爲客户提供"算力租賃+ 算力智能調度+ 平臺化交付"的完整AI服務體系,目前已在教育/工業/通信/交通等多領域成功落地,支撐其大模型部署、推理及場景化落地的全流程需求。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。