繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

爆火的DeepSeek一體機,更多滿足的是情緒價值

2025-04-01 13:43

原標題:爆火的DeepSeek一體機,更多滿足的是情緒價值

「至少有一億元的AI推理一體機硬件需求沒有被滿足。」「DeepSeek出來之后,雲服務廠商的電話已經被打爆了,全都是諮詢DeepSeek一體機的。」

這是「甲子光年」最近聽到最多的兩句話。

DeepSeek在2025年春節期間火出圈后,掀起了中國企業本地化部署的風潮,也帶火了一款新的產品——DeepSeek一體機。

怎樣形容DeepSeek一體機的火爆程度呢?

這麼説吧,去年我們在很多科技產業大會上看到最多的產品是機器人。而今年初在一些科技產業大會的外部展覽區,機器人的展位有所減少,放眼望去,大片映入眼簾的,是各家廠商推出的DeepSeek一體機。

也有服務器廠商的工作人員告訴我們,從春節期間DeepSeek火出圈到現在,每天都有鋪天蓋地的電話打進來,都是來諮詢一體機或者本地部署DeepSeek大模型的,有時候銷售和售前要一天拜訪三波客户去做交流和講解。

交易市場的火熱還只是其次。在風起雲涌的二級市場,甚至出現了「一體機概念股」,首都在線天璣科技恆為科技紫光股份雲從科技廣電運通等公司的股票都在近期迎來了不同程度的上漲。

為什麼在短時間內出現了DeepSeek一體機的大爆發?服務器、雲廠商、芯片、軟件、集成商……各個領域的科技企業都推出了一體機,它們之間的差別是什麼,客户應該怎麼選購合適自己的產品?搭載了國產AI芯片的一體機跑滿血版DeepSeek模型的效果又究竟怎樣?

1.DeepSeek帶火一體機產品

所謂「一體機」,指的是一種專門為人工智能大模型應用和部署而設計的集成計算設備,通常包含中央處理器(CPU)、圖形處理器(GPU)、存儲器、操作系統、AI平臺軟件及各類模型算法等軟硬組件,可以看成是「大模型+服務器」的「1+1」產品。

換句話説,它是一個「AI工具箱」,里面塞滿了硬件、軟件和行業專用工具,具有數據本地處理、部署周期短、成本低等優點,非常適合政府、銀行、醫院等對隱私要求高的行業和單位。

其實,一體機並不是新的概念,早在DeepSeek爆火之前,就有大模型一體機產品被部分政府和企業應用在了私有化部署等場景中。相較於大型的服務器集羣,一體機成本更低、操作更便捷,也更適合中小企業或個人等小規模的業務需求。

既然一體機並不是一個新東西,那為什麼DeepSeek發佈后,一體機這一產品才迅速躥紅呢?這與DeepSeek-R1模型本身的技術優勢、政府號召、開源策略和資本市場的推波助瀾密切相關:

DeepSeek-R1發佈后,由於它的MoE架構、MLA算法大幅降低了模型對算力的需求,加之不同版本蒸餾小模型的推出,讓模型部署變得更加容易,無需花重金購置服務器集羣就能將模型部署到本地,極大提升了全民部署DeepSeek的熱情;

自上而下的號召也很關鍵。春節后黨政機關引入DeepSeek的需求井噴,北京、廣州等多地政務系統宣佈全面啟用DeepSeek大模型,首批「AI公務員」正式上崗,覆蓋文件處理、政策諮詢等場景;

而在2月19日國資委召開「AI+」專項行動深化部署會后,大模型的本地部署成為剛需,一體機的本地化部署方案恰恰有效解決了金融、政務等敏感領域的數據合規問題,於是多家央國企紛紛加入一體機採購的浪潮;

與此同時,DeepSeek的模型是開源的 ,企業可基於其開發定製化的解決方案,結合國產芯片構建軟硬一體的生態,DeepSeek一體機讓想做數字化轉型、但技術能力欠缺的企業無需支付高昂的模型授權費、通過簡單的部署就能用上大模型;加之二級市場DeepSeek概念股大漲,眾多企業爲了自己的股價和估值,也紛紛採購一體機部署DeepSeek……上述種種因素,都推動了DeepSeek一體機的爆發。

我們預計,兩年內、在百人以上的組織里,大模型的滲透率會達到40%-50%,而一體機會是他們*先的選擇。」公眾號「算力百科」主理人、深圳未來智算科技有限公司創始人陳嬌嬌對「甲子光年」表示。

究竟有多少公司在做一體機呢?目前除了互聯網公司和做硬件的廠商,那些原來做集成商的、做軟件的、做組裝廠的、做交換機的企業也都推出了一體機。「只要是IT行業相關的公司都在做,即使不是自己研發的,也會OEM一個。」陳嬌嬌表示。

從分類上看,目前,市面上的DeepSeek一體機分為推理一體機訓推一體機兩大類。

推理一體機主要面向需要高效推理計算的企業,內置DeepSeek-R1 滿血版671B、70B、32B等不同尺寸的模型,價格從幾十萬到數百萬不等,適用於對數據安全性要求較高的企業;

訓推一體機則適用於需要進行模型訓練和推理的場景,其價格更高、主要用於預訓練和微調大模型,能夠支持更復雜的訓練、推理任務。根據硬件配置和軟件調優程度的不同,價格在幾十萬到幾百萬不等。

「甲子光年」根據公開資料,對部分推出DeepSeek一體機的廠商做了統計,情況如下所示:

DeepSeek一體機發布情況,製圖:甲子光年 DeepSeek一體機發布情況,製圖:甲子光年

根據浙商證券研報,目前,已有23%的央企有大模型部署,未來大模型的普及率預計會進一步增加;而隨着DeepSeek帶動大模型的快速部署需求,一體機的部署佔比有望持續增長,浙商證券預計,2025—2027 年,一體機採購量將分別達到15、39、72萬台,DeepSeek一體機在央國企的市場空間有望達到1236、2937、5208億元。

2.央國企要國產,民企要H20

那麼,這些廠商推出的一體機都賣給誰了呢?

政府和央國企顯然是這一波DeepSeek一體機上新潮的*客户。

近年來,中國持續推進信創產業和國產替代戰略,要求關鍵領域(如政府、金融、能源等)優先採用國產技術,降低對外依賴。DeepSeek作為本土AI企業,其產品天然符合這一政策導向。

加之政府和央國企涉及大量政務數據、民生數據和國家基礎設施數據,對數據安全和隱私保護的要求極高,DeepSeek一體機的本地化部署和封閉式架構,不僅能滿足政府和央國企對數據和隱私的合規要求,而且開箱即用、無需僱傭龐大的運維團隊,因此成爲了政府和央國企的*。

有數據統計,截至2月21日,已經有45%的央企完成了對DeepSeek模型的部署,而這其中不少企業都選擇了一體機的方案。

從不到一個月的時間內,如此高比例的央企實現了對開源模型的快速覆蓋,這一速度在過去是難以想象的。

除了政府和央國企,民營企業也是部署DeepSeek大模型的重要玩家。

由於百度、阿里等互聯網巨頭自己就是雲服務商、自己就售賣一體機產品,因此購買一體機的多是有資金實力的大型民企中的個別業務部門,或者有數字化轉型需求的中小民營企業。

「購買我們一體機的金融類客户比較多,因為一體機首先就主打線下私有化交互,而這些客户首先強調的就是數據不出域。除了金融類客户,政務類客户和之前的頭部大KA也是購買一體機的主力客户。」京東雲PaaS業務部產品負責人賀皓告訴「甲子光年」。

「甲子光年」瞭解到,在打算購買一體機的企業中,大型央國企的預算較高,一般在200萬-500萬之間;中小型政府機關、央國企和民營企業的比較容易批下來的預算一般在100萬以內;而在這100萬中,又根據預算金額的不同,分為50萬-100萬、10萬-50萬、10萬以內三個區間。

目前,客户預算集中在10萬-50萬的區間內,這與客户對部署大模型「嚐鮮」的需求和企業的預算審批制度高度相關。

有的部門,領導手里的權限就是50萬,領導籤個字這50萬就能批出來,所以一體機廠商大部分也都是圍繞這個價格來定價的。」陳嬌嬌説。

而具體到模型的選擇上,90%以上的客户都在諮詢滿血版DeepSeek大模型的一體機部署方案。

「首先從實際效果來説,滿血版肯定是*的;其次,有一小部分客户有明確的業務使用場景,因此他們希望先部署滿血版,有了滿血版模型之后再去研究能對接什麼樣的應用場景。比如金融機構之前一直在做投研分析報告等東西,他們其實原來也是用大模型做,DeepSeek出來之后,他們就想用滿血版來看一下, 驗證一下DeepSeek滿血版的性能和效果是不是更好。」賀皓説。

儘管人人都想部署滿血版,但不是人人都有實力買得起滿血版。「甲子光年」從各一體機廠商的市場和銷售人員處瞭解到,在廣大的中小企業客户中,成單量最高的是70B的模型。

預算有限肯定是首要原因。但這其中還有一個原因是,絕大多數企業還處於對大模型的「試驗」和「嚐鮮」階段,70B的模型(下文簡稱70B)足以應對辦公場景的需求。其中,知識庫、辦公助手、 智能客服等是最為高頻的應用場景。

「70B是性價比最高的,企業如果直接部署了滿血版,萬一這個東西不好用,硬件成本怎麼回收也是一個問題。而70B可以直接擴容到滿血版(通過增加機器臺數的方式)。」潞晨科技市場經理趙一飛表示。

四通集團產品經理戴歧航也表示,部署滿血版大模型的價格對絕大多數中小企業來説還是太高了:「70B買我們的設備的話20萬可以,671B的話要120萬以上。針對一般企業辦公類的使用場景,70B足夠了。」

企業選擇一體機,最看重的是其內置的GPU芯片

由於DeepSeek-R1模型的推理只激活671B參數中的37B參數,降低了對算力的要求,但其大規模並行的架構對芯片的顯存提出了更高的要求。因此算力被「閹割」、但有着較大顯存和帶寬的H20成爲了運行DeepSeek推理模型最有性價比的選擇——兩臺96G版本的8卡H20一體機就能運行滿血版大模型。

這也是DeepSeek模型火出圈后,H20的市場行情從「賣不出去」轉為「供不應求」的原因,一臺96G版本8卡H20服務器的市場價格也從原來的100萬上升到了110萬左右。

英偉達部分顯卡的參數規格,製圖:甲子光年 英偉達部分顯卡的參數規格,製圖:甲子光年

2025年2月,爲了應對DeepSeek帶來的大顯存需求,英偉達「趁熱打鐵」,推出了H20的升級版本——擁有141G顯存的H20。新升級的H20不僅顯存容量更大了,而且顯存帶寬也從原來的4TB/s提升到了4.8TB/s,能夠實現更快的數據傳輸速度。

相較於原來96G顯存版本的8卡H20一體機需要兩臺才能跑DeepSeek滿血版大模型,141G顯存版本的8卡H20一體機只需要一臺就能跑滿血版,極大降低了企業的模型部署成本。搭載了H20芯片的DeepSeek一體機也成爲了絕大多數有資金實力的民營企業部署滿血版DeepSeek大模型的*選擇。

然而,由於目前H20 141G的版本剛剛推出、正在批量交付,市場上的現貨並不多;加之是閹割版的芯片、央國企不允許購買,因此正式被投入到企業中使用的141G顯存版H20一體機並不多,真正出貨量較多的還是搭載了H100、H200等芯片的一體機。

此外,這波DeepSeek浪潮也帶動了國產芯片的出貨,和國產芯片一體機銷量的增長。

正如前文所提,在國家政策的要求下,不少政府和央國企都需要在本地部署大模型,於是搭載了華為、摩爾線程、沐曦等國產AI芯片的DeepSeek一體機則成爲了政府和央國企滿足數據安全、高效算力和簡易部署的*選擇。也因此,不少一體機廠家都在主推搭載了國產AI芯片的一體機,「單機跑滿血版」更是成爲了一部分廠家的主打賣點。

目前,包括三大運營商和華為、浪潮信息、聯想集團、京東雲等在內,眾多IT廠商都推出了包含國產芯片的一體機產品,比如聯想聯合沐曦發佈了基於DeepSeek大模型的*國產一體機解決方案;華為與中國移動、華鯤振宇、寶德、神州鯤泰、長江計算等20余家廠商合作推出了基於昇騰芯片的DeepSeek一體機,覆蓋金融、醫療等領域;海光、壁仞、天數、摩爾線程、算能等國內芯片廠商也通過合作或自研的方式推出了自己的一體機產品。

但相較於英偉達的H20,國產一體機並不是性價比最高的選擇。

以滿血版DeepSeek大模型的部署為例,目前市面上一臺141G顯存的8卡H20一體機的價格約為140萬元,更高端一點的8卡H200一體機的價格約為200萬元;而國產機方面,一臺搭載了8卡昇騰910B的一體機價格約為130萬元,如果是64G顯存的訓推卡部署滿血版DeepSeek至少需要兩臺機器,如果是32G的推理卡則至少需要四臺。

也就是説,如果選擇昇騰卡來部署滿血版DeepSeek,那麼至少需要花260萬-520萬不等,性價比遠不及英偉達的140萬。

然而,即使性價比遠不如英偉達,在國家的信創政策和安全性、隱私性等因素的考量下,大量政府、央國企和金融企業仍然選擇購買國產芯片的一體機。

3月7日,沐曦集成電路發佈消息稱,他們與聯想集團合作的國產DeepSeek一體機累計發貨量已經突破千台,配備沐曦國產GPU卡近萬張,覆蓋醫療、教育、製造等十余個核心行業;另據相關媒體報道,華為昇騰DeepSeek一體機今年一季度的銷售任務已被提前完成。

最近也有昇騰相關專家對外公開表示,在國產卡一體機里,昇騰卡的佔比達到了70%以上。同時,昇騰GPU的今年出貨量在75萬到80萬張之間,其中910B約為35萬張,910C約為40萬;而在需求結構上,地方算力中心10萬張,運營商20萬張,互聯網企業40-50萬張。這其中,一體機形式的約為5-10萬張,以政企需求為主,已經快要接近智算中心對昇騰GPU的需求量。

而由於政企數字化市場容量巨大,且相對碎片化,不存在一家通吃的情況,因此短期內,國內的大小科技公司都有機會在DeepSeek一體機這個市場上賺到錢。這也是服務器、算力、軟件、IT系統集成等各行各業的科技公司都來摻和「DeepSeek一體機」這件事的原因。

那麼,國產一體機跑滿血版大模型,究竟靠譜嗎?

3.國產卡一體機跑滿血版,靠譜嗎?

衡量大模型推理性能的有兩個指標,分別是系統吞吐(TPS,Tokens Per Second)併發數(Concurrency)。其中,系統吞吐指的是單位時間內模型處理的Token數量,它直接影響實時交互場景的流暢性;而併發數則是模型同時處理多個請求的能力,它直接影響系統的擴展性。

如果要將衡量指標更進一步細化,那麼可以再加上TTFT(Time to First Token,生成*Token所需時間)TPOT(Time Per Output Token,每生成一個Token所需的時間)。模型的整體推理延迟(Latency)就可以根據這兩個指標計算出來(計算公式為:Latency=TTFT+TPOT×生成Token數)。

一般而言,TTFT要小於5秒-10秒,而在1秒-1.4秒之間是大部分用户能夠接受的延迟;而20token/s的每秒生成Token數能滿足一個用户的正常閲讀需求。

「甲子光年」瞭解到,目前大部分國產芯片一體機跑DeepSeek滿血版大模型的時間大概是10 token/s,其中某國產芯片廠商在自己的文檔中寫道月底會將數據優化到25Token/s。

而英偉達的數據是什麼樣呢?

某國產AI Infra廠商用141G顯存的8卡H20一體機做了測試。通過硬件調優、算子優化、混合並行、多token預測等多方面的工程實踐,在單路併發、268tokens輸入、2869tokens輸出的情況下,英偉達8卡H20一體機實現了單用户吞吐最高32.9 tokens/s、平均TTFT 191.72ms的表現;

而在1024路併發、1000/1000的輸入/輸出長度的情況下,英偉達8卡H20一體機實現了3975.76 tokens/s的總設備吞吐。

也有工程師使用配置為八張141G顯存的H20GPU、兩張英特爾至強Platinum 8480+CPU、2T DDR5內存和3.84TB的機器做了測試,結果顯示,英偉達的GPU在單路併發、128tokens輸入、1024tokens輸出的情況下上跑出了平均用户吞吐率23.68tokens/s、平均 TTFT 174.51ms的成績。

而在NEOLINK LABS的測試中,兩臺8卡96G顯存的H20運行DeepSeek-R1滿血版實現了高達6279.08tokens/s的峰值總吞吐。

可以看到,在系統吞吐和併發率兩個指標上,國產AI芯片一體機嚴重落后於搭載了英偉達芯片的一體機。

儘管有些國產廠家聲稱自己家的一體機單機就能跑DeepSeek大模型、實現不輸2400tokens/s的總吞吐(這一數值約為4台H800一體機集羣跑DeepSeek滿血版的吞吐量),但這是在調整模型精度的情況下進行的。

「有些廠家説自己單機就能跑DeepSeek滿血版,吞吐和併發還很高,但他們跑的是量化版。很多廠商所謂的‘優化’都是在降低模型智商的情況下進行的,很多國產卡一體機如果要在智商不下降的情況下運行滿血版大模型,連單用户10token/s的吞吐都跑不到。」陳嬌嬌説。

陳嬌嬌所説的「量化版」,指的是在原生FP8數據精度的671B模型基礎上,通過動態量化技術,將模型精度降低,提高模型吞吐,降低了所需硬件資源開銷的模型。

目前市面上的滿血版模型分為三種,分別是數據精度為DeepSeek原生的FP8、顯存佔用671G的「原生滿血版」;數據精度為BF16或FP16、顯存需求未量化1342G的「轉譯滿血版」;數據精度為INT8(Q8)、INT4(Q4,顯存335G)、Q2、Q1的「量化滿血版」。只有原生滿血版是*DeepSeek官方智商水平的模型,其他兩個版本的模型都有一定程度的「智商下降」。至於智商下降多少,則取決於技術團隊做轉譯和量化時候的取捨和操作。

陳嬌嬌表示,還有些國產芯片一體機廠商根本不公佈輸入和輸出長度,就直接説自己的產品跑671B大模型能輸出多少Token、達到多少併發。

「英偉達所有的結果都是有標準測試條件的,很多國產卡一體機廠商爲了數據好看把測試條件全刪了,然后説自己的數據比英偉達還好」,陳嬌嬌説,「我認為所有不公佈輸入、輸出長度的性能測試都是耍流氓。

某大廠高層也透露,自家公司出的一體機只是宣傳的數據很好,但是實際跑起來的效果並不好,會出現各種毛病,時不時就要公司的業務人員前去維護。「就算跑的是量化版的模型,效果都很爛」。同時,該高管還告訴「甲子光年」,截止到目前,這款單機能跑滿血版的一體機銷售額只有幾千萬,以150萬/台的最高單價計算,出貨量不過幾十臺。

為什麼國產卡一體機跑滿血版DeepSeek大模型的情況不如英偉達呢?

數據精度不匹配是*個原因。DeepSeek模型採用FP8混合精度訓練,但目前公開市場上僅有三款國產AI芯片支持FP8,分別是算能SC1x瀚博VA1x摩爾線程S5x,除此之外其他國產芯片均不支持FP8。這也就造成了想要跑DeepSeek大模型,必須要將模型轉譯成FP16或BF16精度,或者通過動態量化技術將模型將模型變成量化版。轉譯成FP16或者BF16需要在原來基礎上兩倍的顯存,而將模型變成量化版則需要損失一定的精度。

據陳嬌嬌表示,在能跑FP8的國產芯片中,其中有一家的表現尤為突出,因為他們在拿做過去成功的經驗做AI芯片項目——立項的時候就押注MoE模型、大顯存和低算力成本這三個點,而DeepSeek爆發后這三個點全部踩上了。

然而,由於被列入了實體清單,這家廠商只生產出來了少量的樣品,儘管賭對了技術方向,但仍然無法大規模批量生產。

國產卡一體機的性能不足是第二個原因。而性能,是由內置GPU芯片的顯存製程互聯三個方面決定的:

目前國產AI芯片中,可以查詢到的顯存規格*的芯片是昇騰910B,訓練卡擁有64G顯存,推理卡擁有32G顯存,而即使是8卡的64G顯存規格昇騰芯片一體機,也無法滿足滿血版的顯存要求。而英偉達H20普通版就有96G顯存,升級版更是將顯存提高到了141G,單機就可運行滿血版;

製程方面,國產AI芯片當前製程能力以7-12納米為主,並在28納米及以上成熟製程佔據市場優勢,但在5納米及以下先進製程領域仍需突破技術和設備限制。而國外的AI芯片已經將製程突破到了3納米,並且在2025年正式進入2納米工藝元年;

互聯方面,國產卡由於顯存不足,仍然需要依靠多機互聯來跑滿血版大模型。目前英偉達的NVLink、NVSwitch互聯帶寬可達900GB/s以上,且支持大規模並行計算和低延迟通信;而國內仍然主要依賴PCIe 4.0/5.0或以太網互聯,帶寬和延迟均表現弱於NVLink。即使有的國產芯片廠商會選擇InfiniBand(IB)或者高速以太網RoCE實現互聯,但這些方案的通信延迟很大,這也會影響最終部署的效果。

儘管崑崙芯新推出的P800一體機據說單卡有96G的顯存,可以實現單機跑滿血版大模型,沐曦和摩爾線程也分別推出了時空互聯(推測200–600GB/s)和MT-Link 2.0(480GB/s)技術,但是國產一體機由於軟件層面的優化不足,跑滿血版的表現仍然欠佳。這也是國產卡一體機效果不如英偉達的第三個原因。

「市場上那麼多做大模型一體機的,硬件扒開來看可能也就是那幾個服務器廠商出的,大家差異化的點主要是在軟件,包括底層架構的優化,推理引擎的優化,操作系統內核級的優化等,換句話説,大家都在比拼在同等硬件配置、同等規模參數的情況下,誰能提供提供更多的系統吞吐和併發。」賀皓説。

而陳嬌嬌和他所在公司的的主營業務除了幫助政企客户做一體機的選型,還有一塊很大的業務就是幫客户做一體機的部署和調優。

一體機不同廠商之間其實就是在競爭兩個點,一個點是對性能的優化,就是要在保證模型智商不下降、或者下降最小情況下的性能*;第二個點則是應用做的好不好。」陳嬌嬌説。

陳嬌嬌將當前市場上的一體機分爲了ABC三類:

A類是純硬件,就是AI卡+機頭的模式,更適合有開發能力的客户;

B類是在硬件的基礎上加上了模型和開發平臺,如Dify、DBgpt等,更適合有實施能力的客户;

C類是在B類的基礎上疊加了一些應用作為整體產品輸出,比如知識庫等,更適合想要開箱即用的用户。

基於上述分類邏輯,陳嬌嬌也認同一體機之間的競爭主要是在軟件。而由於一體機太火,市場上很多投機的人也進來做一體機了,但他們的軟件調優能力是不足的,因此他們瘋狂給那些預算有限的客户推銷搭載了32B、70B等蒸餾版DeepSeek模型的一體機,銷售出去后就不再提供后續的安裝和維護服務。

「很多廠商可能把一體機定價定的比較低,比如賣到30萬左右。但是在30萬的硬件上,他們只能干70B,干不了滿血版。不是所有團隊都有足夠的軟件能力駕馭671B大模型的,在十萬或者幾十萬的硬件上,把671B滿血版大模型跑到10tokens/s或者15 tokens/s以上是需要功底的,大部分人做不了。即使能勉強做滿血版,併發也不太夠,比如現在客户要求20個人、50個人同時使用的話,就完成不了。於是他們跟客户説你用個70B吧,70B的計算量小、併發高。看起來是甲方企業技術能力的問題,其實根本上還是乙方的問題。」陳嬌嬌説。

陳嬌嬌表示,現在很多市場上做一體機的廠商專門給客户推70B或者更低參數的一體機,只強調併發量,不保證實際性能,至於能不能用的起來概不負責,等客户買單后就結束服務。一旦客户覺得不好用了,就讓客户接着再買「升級版」的下一代產品。

「我還知道有些廠商,專門就給客户推32B的低價一體機,他們會説‘預算一定的情況下,我讓合作伙伴多賺點錢不香嗎’。」陳嬌嬌説。

4.DeepSeek*的部署方式,並不是一體機

儘管目前幾乎各家IT廠商都在做一體機,市場上也有價格不等、規格各異的一體機產品能滿足客户各種各樣的需求,但是DeepSeek大模型*的部署方式並不是一體機。

這與DeepSeek的模型架構有關。

DeepSeek-R1模型採用了MoE架構,每次只激活一堆專家里的少量專家。根據DeepSeek最新發布的文章,每層256個專家僅激活其中8個,相當於只激活了671B參數里的37B參數,因而極大降低了計算量。

但是,MoE模型里那些未激活專家,雖然不消耗算力,但它們的參數量仍然要佔用顯存/內存,帶來巨大的存儲開銷和調度複雜性。也就是説,必須要有很大的總batch size,才能給每個專家提供足夠的expert batch size,從而實現更大的吞吐、更低的延迟。

運行數據精度為FP8的 671B滿血版模型需要多大的內存呢?根據行業內的計算公式,我們首先可以得出不同精度數據下,1B參數內存的大小:

以FP8精度的滿血版DeepSeek-R1 671B為例,假設batch size=30,輸入Token數=2048,輸出Token數=2048,層數=61,hidden_size=7168;

按照「DeepSeek推理所需顯存=模型參數部分+激活參數部分+KV Cache」的公式計算,總的顯存容量=671×1GB+37x1G+30×(2048+2048)×2×61×7168×1Bytes=671GB+100.08GB=808.08GB

此外,模型推理的上下文長度(Context Length)不同會對KV Cache的顯存佔用影響很大,不同的廠商對顯存大小的推薦也略有不同,下圖是某大廠對DeepSeek不同模型參數量&模型精度的顯存推薦:

這也就意味着,如果要實現在一體機上運行滿血版DeepSeek大模型,就必須把參數、配置拉滿,起碼顯存要做到808-846GB,機器才能裝得下6710億參數。然而,由於每次真正激活的參數只有370億,剩余參數的存放對於顯存、內存、硬盤來説是極大的浪費,因此一體機並不適合運行DeepSeek這種MoE模型,而是更適合那些非MoE的全參數激活模型。

DeepSeek官方在其推理系統概覽文章里也説,要實現更大的吞吐、更低的延迟就需要需要大規模的跨節點專家並行(Expert Parallelism / EP)。也就是説,對企業來説,多機多卡的大規模的並行集羣纔是DeepSeek官方推薦的路線。

圖片來源:DeepSeek知乎官方賬號 圖片來源:DeepSeek知乎官方賬號

正因為這種採用了這種大規模並行架構,DeepSeek才實現了令人驚訝的的單服務器平均推理性能。英偉達官方實測顯示,DeepSeek-V3/R1使用H800集羣(單節點8卡),在FP8混合精度下實現輸入吞吐73.7k tokens/s(含緩存命中)和輸出吞吐14.8k tokens/s。而國產一體機廠商們給出的性能指標,輸出+輸入的吞吐量總和最多也不過4k tokens/s。

而在目前絕大多數中小企業預算有限、對採購的*影響因素仍然是「性價比」的當下,一體機真實的銷售情況也並未像市場中傳言的那樣火爆。

「甲子光年」從多位一體機銷售處瞭解到,今年2月到3月的一體機市場情況並不佳,大部分企業仍然以比價和觀望為主,問的多、買的少;而即使有政策要求購買國產卡的一體機,但是部分央國企爲了「嚐鮮」,仍然會選擇在某一個部門部署一到兩臺英偉達芯片的一體機,對此監管部門也會睜一隻眼閉一隻眼。

「客户預算有限,都想先用我們的機器測一測性能,但是我們現在只有運營商這種比較大的客户才能給他們配機器測試一下,不然很多人測完了不買都是白嫖。」超聚變銷售經理孟令廣表示。

或許也是看到了當前的一體機運行DeepSeek大模型的技術侷限,近日,昇騰推出了大規模跨節點專家並行(大EP)集羣推理方案,並和科大訊飛合作實現了基於昇騰算力的8機64卡DeepSeek大規模跨節點專家並行集羣推理。這是繼DeepSeek公佈其MoE模型訓練推理方案后,業界*基於自研算力的全新解決方案。

昇騰大EP方案採用了MoE負載均衡、PD分離部署、雙流/多維混合並行、MLAPO融合算子、MTP(多Token預測)等技術,實現了MoE模型專家之間的負載均衡——專家數據交換效率提升40%,降低跨機流量60%,卡間負載差異小於10%,集羣吞吐提升30%;此外,推理集羣的性能和吞吐量也得以提升——單卡靜態內存佔用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。

緊隨DeepSeek的「號召」,升級后的昇騰大EP方案,可支持從幾十卡到幾千卡甚至更大規模的推理集羣。而企業之前採購的一體機,也可以通過軟件升級,擴展為大EP的推理方案。

「甲子光年」從某大廠高管處獲悉,目前大部分企業都已經結束了「嚐鮮」,正式進入了採購和部署階段,而部分企業的採購決策也從開箱即用的DeepSeek一體機,轉向了可支撐高併發、低時延的大規模專家並行(EP)推理集羣。這也是DeepSeek開源自己的技術方案后給市場帶來的改變。

但是,這並不意味着一體機就是一個很差的產品形態。對於預算有限或者業務場景對AI需求不大的企業,一體機仍然是他們嘗試AI、初步探索大模型賦能業務場景的*選擇。

對這些企業來説,無論是搭載了蒸餾版DeepSeek模型的一體機,還是搭載了非MoE架構的小體積新模型的一體機,都足以應對現有業務的AI部署需求。而在DeepSeek R2推出之后,還將會有更多公司基於新的模型推出一體機或其他的硬件產品,屆時再部署或許也將能實現更高的投入產出比。

無論算力產品形態如何演變,長期看,唯有國產芯片在算力密度、互聯技術和開源生態上實現突破,一體機才能越來越才能真正打破「性能妥協」與「國產合規」的二律背反,讓DeepSeek的「中國式爆發」不止於熱鬧,而是沉澱為一場紮實的產業進化。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。