禁令解除72小時：141GB H20 跑滿血實測，DeepSeek 性能超預期

2025-07-24 11:44

2025年 7月 15日，英偉達 CEO黃仁勛宣佈了一個震動AI 圈的消息：美國政府即日起解除H20芯片對華銷售禁令，而就在禁令解除后，雲工場科技發佈詳細測試數據--- 8卡 141GB顯存的H20服務器，能流暢運行 671B參數的滿血版非量化DeepSeek-R1模型，推理吞吐量突破預期。

硬核實測：141GB H20跑滿血版非量化DeepSeek性能全面解析

測試環境配置

一.測試數據

二.關鍵性能測試結果

　　測試顯示：

　　1.首token響應快：在測試的多個併發量下，首個 Token的響應時間(TTFT)都保持在3秒以內(實測0.1s - 2.8s)，用户體驗非常流暢，感覺不到任何延迟。

　　2.高併發吞吐大： H20顯卡展現出優秀的併發處理能力。在模擬100個用户同時提問(併發請求=100)的中高負載場景下：

　　·處理短問題(輸入/輸出各256 tokens)，系統總吞吐量高達約 1124 tokens/s。

　　·處理典型問題(輸入/輸出各1K tokens)，總吞吐量穩定在約 1100 tokens/s。

　　·處理複雜問題/長對話(輸入/輸出各 2K tokens)，總吞吐量仍能保持約 1020 tokens/s。

　　分場景性能趨勢：

　　1.低併發場景(<10用户)：

　　·響應極快： TTFT 始終低於0.9秒，用户幾乎感覺不到等待。

　　·吞吐未飽和：系統能力遠未被充分利用，吞吐量相對較低(32-208 tokens/s)，性能表現輕松自如。

　　2.中高併發場景(50-100用户)：

　　·響應依然迅速： TTFT保持在1.9秒 (1K上下文)到 2.8秒 (2K上下文)，交互體驗依然流暢。

　　·吞吐大幅躍升：系統資源得到高效利用，總吞吐量急劇上升至634 - 1124 tokens/s。

　　·長上下文優勢顯現：在相同併發下，處理更長(1K/2K)的上下文通常能獲得比短上下文(256)更高的吞吐量(尤其在併發50時最明顯)，充分體現了 vLLM對長文本的優化效果。

　　3.極限場景(100用户+ 長上下文2K)：

　　·響應可控： TTFT為 2.8秒，交互體驗依然流暢。

　　·吞吐維持高位：即使在此壓力下，系統總吞吐量仍達 1020 tokens/s。

三.測試總結

　　雲工場科技構建了全面的異構計算資源池，涵蓋 NVIDIA全系高性能GPU(包括141GB顯存 H20、L20、RTX 4090等最新型號)、AMD w7900以及國產算力三巨頭(華為昇騰910B 系列、百度崑崙芯 P800、燧原S60)等等，可本地部署到就近機房，提供DeepSeek、文心一言、華為盤古、LLaMA等開源大模型本地部署。

　　通過嚴格的橫向性能基準測試，雲工場科技驗證了不同架構GPU在 LLM推理、計算機視覺等場景的能效比差異，併爲客户提供"算力租賃+ 算力智能調度+ 平臺化交付"的完整AI服務體系，目前已在教育/工業/通信/交通等多領域成功落地，支撐其大模型部署、推理及場景化落地的全流程需求。

禁令解除72小時：141GB H20 跑滿血實測，DeepSeek 性能超預期

推薦文章

一周財經日曆 | 特朗普對等關税將於8月7日生效；Palantir、超微電腦等財報來襲

8月金股搶先睇！港股能否繼續抽升？哪些賽道值得關注

英諾賽科午前飆升逾31% 英偉達最新800V架構供應商名單曝光公司為中國唯一入選芯片企業

亞馬遜Q2業績會實錄：市場對AWS服務需求超過亞馬遜現有容量

特朗普官宣「對等關税」：各國税率10%至41%不等 加拿大上調至35%

盤后大跌6%！亞馬遜交出優秀財報 但云業務仍遜色於微軟谷歌

蘋果第三財季營收940.36億美元 淨利潤同比增長9%

外盤頭條：白宮稱特朗普將在午夜前設定新關税 蘋果季度營收遠超預期 Pimco青睞短至中期歐洲債券

特朗普官宣「對等關税」：各國税率10%至41%不等加拿大上調至35%

盤后大跌6%！亞馬遜交出優秀財報但云業務仍遜色於微軟谷歌

蘋果第三財季營收940.36億美元淨利潤同比增長9%

外盤頭條：白宮稱特朗普將在午夜前設定新關税蘋果季度營收遠超預期 Pimco青睞短至中期歐洲債券