繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

周末讀物 | DeepSeek被曝正尋求至少3億美元的首次外部融資!不缺錢的梁文鋒,為什麼要融資?

2026-04-18 12:33

DeepSeek 開始接觸外部資本了。 

The Information 引述四位知情人士報道,DeepSeek 正在尋求至少 3 億美元的首次外部融資,估值不低於 100 億美元。 

如果把時間撥回兩年前,這幾乎是一個不成立的命題。在那段時間里,這家公司是整個中國 AI 行業里最反常識的存在。 

當所有人都在融資、擴張、講生態、搶入口的時候,DeepSeek反而在做一種刻意的收縮,不對外發聲,不頻繁發產品,不參與大廠敍事,甚至對資本保持距離。 

很多投資人嘗試接近過,得到的反饋幾乎一致:沒有融資計劃。

在一個高度資本驅動的行業里,這種姿態顯得反工業邏輯。但也正因為如此,DeepSeek 一度被視為一個異類樣本,一個試圖在 AI 時代驗證"少資源路徑"的團隊。 

所以這次融資信號里,真正重要的不是金額,也不是估值,是它打破了一種持續兩年的策略前提:DeepSeek 不再試圖把自己隔離在體系之外。

一、DeepSeek的防火牆

梁文鋒對外部資本的排斥有很深的根源。 

2022 年前后,量化行業被政策持續打壓,幻方管理規模從巔峰時期的千億縮減了大半。手里攥着大量富余的 GPU 集群和現金,梁文鋒一度想通過投資入股或雲廠商合作的方式把算力用出去。 

他專門招了兩個人做戰投,看了一圈科技項目,低空經濟、智能硬件、SaaS,最終一個也沒投。 

當時DeepSeek內部的判斷是,外面能做的事,自己也做得了。

2023 年 7 月,DeepSeek 正式成立。梁文鋒從第一天就給這家公司劃了一條線,不接受外部融資,不稀釋股權,不被任何人的商業化時間表綁架。 

他想造的東西,更像一個純粹的研究機構,追 AGI、做開源、讓技術本身説話。 

底氣是實打實的。 

早在 2019 年,他就花 2 億元自研了深度學習訓練平臺螢火一號。兩年后又砸 10 億元建螢火二號,大批採入英偉達 A100,把幻方做成了國內屈指可數的萬卡集群公司。 

疫情期間芯片供應最緊張的那陣子,幻方已經提前囤好了貨。2025 年,幻方全年收益率 56.6%,營收超 50 億人民幣。 

梁文鋒的錢袋子,比絕大多數 AI 創業公司的投資人都豐盛。

有錢、有卡、有人。VC 的錢反而是負擔,帶着對賭、帶着估值壓力、帶着什麼時候變現的追問。他説得很直接:VC 都是幫 LP 管錢,都得賺錢,所以就談不到一塊去。

這條路在 2025 年 1 月到達了巔峰。R1 發佈,訓練成本約 560 萬美元,性能逼近 OpenAI 的頂級系統。 

"用十分之一的錢做出同級模型",這個故事讓行業意識到一件事,頂級模型能力,並非只能通過極端的資源堆疊獲得。 

那一刻,DeepSeek 的意義被迅速放大。它提供的不只是一個模型,是一種可能性,在資源不佔優的情況下,仍然可以進入核心競爭區。 

防火牆不僅立住了,還成了故事的一部分。 

但故事的問題在於,它需要不斷被續寫。 

二、裂縫出現了

裂縫不是突然出現的,它從 R1 發佈之后就開始生長,只是當時的信號是分散的。 

最先松動的是人。 

頂級模型團隊有一個共性,核心成員的市場價值極高,一旦項目進入空檔期,這些人就會成為整個市場的目標。 

最早被注意到的是羅福莉,V3 架構的關鍵開發者,2025 年底轉投小米接手 MiMo 大模型團隊。差不多同一時期,第一代大語言模型核心作者王炳宣去了騰訊,多模態方向的核心研究員阮翀加入元戎啟行做首席科學家,OCR 系列核心作者魏浩然也在今年春節前后離開。 

然后是郭達雅。1994 年生,中山大學博士,在 DeepSeek 只待了兩年,卻全程參與了 V3、R1、Coder、Math、Prover 等幾乎所有標誌性模型的研發。他提出的 GRPO 算法是 R1 的核心技術底座,論文總被引超過 37000 次,在同齡的中國 AI 研究者里幾乎找不到對手。 

就在前兩天,郭達雅加入字節跳動,方向是智能體。(延伸閲讀:張一鳴,信達雅

五個核心研發骨干,在不到一年的時間里相繼出走。這些流動的意義超出了人走了本身,在模型研發里,經驗高度路徑依賴,核心成員的離開會直接影響下一輪迭代的效率和節奏。 

他們為什麼走? 

獵頭圈流傳的數字是,大廠給 DeepSeek 核心技術人員的開價,普遍是原薪資的兩到三倍。字節 Seed 團隊從 2025 年 9 月起推出專項期權津貼,按職級每月發放 9 萬到 13.5 萬元不等的期權,價格低於內部回購價,相當於直接打折。 

梁文鋒的管理哲學在中國科技行業里幾乎是個異類:不加班、不打卡、不設 KPI。員工下午六七點走人,早上不用簽到。

他認為一個人每天高質量工作的時間很難超過六到八小時。這種文化在 DeepSeek 還是小團隊的時候運轉得很好,聰明的人給夠自由度,他們自己會往最難的方向衝。 

但當外面有人拿八位數總包來敲門的時候,自由就不夠用了。 

更致命的是期權。DeepSeek 從未融資,沒有市場化的估值錨點。你給核心成員一個股權承諾,他拿到手里沒法換算成真金白銀。大廠的期權有行權價、有內部回購機制、有 IPO 預期。外界只知道 DeepSeek 很值錢,但到底值多少,沒有人能説清,員工更不知道。 

郭達雅的離開可能比薪資的賬面差距更值得琢磨。他去字節做的是智能體,DeepSeek 至今沒有任何一個 Agent 產品,R1 發佈時甚至不支持 function call(函數調用)。 

想做 Agent,但所在的公司不做這個方向,這種錯位,給再多錢也填不上。 

與人一起松動的,還有產品節奏。 

下一代旗艦 V4 原本定在春節前后發佈,推到 2 月,再推到 3 月,目前的口徑是 4 月下旬。從公開信息來看,延期背后至少有三層原因交織在一起。 

最直接的一層是技術路線本身發生了質變。 

V4 要做的已經不再是一個刷 benchmark 的基礎模型,萬億參數 MoE 架構、原生多模態、百萬 token 上下文、全新的 Engram 條件記憶機制,這是系統級工程,訓練驗證的複雜度陡然上了一個臺階。 

更深一層的壓力來自身份包袱。

DeepSeek 立身靠的是十分之一成本做到頂級這個故事。V4 如果只是性能微增卻推高了推理成本,支撐估值和聲譽的故事就會出現裂痕。某種程度上,一個不夠驚艷的 V4,反而不如不發。 

還有一層很少被充分討論。國產芯片的深度適配。多方信源在 4 月初披露,V4 將全面運行在華為昇騰 950PR 芯片上,有望成為首個完全跑在國產算力上的旗艦大模型。戰略價值極高,但這本身就是一個獨立的巨型工程,直接吃掉了大量研發帶寬。

到 2026 年 4 月,DeepSeek 已有 15 個月沒有大版本更新。而這期間,OpenAI 迭代四五輪,Anthropic 連推 Claude 4.5/4.6/4.7,國內同行如智譜、月之暗面、字節也在應用層狂飆突進。 

所有人都在加速,只有DeepSeek 靜悄悄。 

和很多團隊不同,DeepSeek 在 R1 之后沒有迅速擴張,沒有大規模商業化推進,沒有密集的版本更新。 

當時不少人把這種節奏理解為定力。但從今天回看,它更接近一種主動選擇,儘可能延長"實驗室狀態"的時間。 

保持克制本質上是在控制節奏,但當外部環境整體加速時,節奏就不再完全由自己決定了。 

三、競爭換了一套邏輯

如果把 DeepSeek 當前的處境單獨看,很容易歸因為公司內部問題。但更關鍵的變量來自外部,過去15個月,整個行業的競爭維度發生了巨大的遷移。 

更早的時候,大模型競爭的核心在架構、訓練方法和工程優化上。2026 年之后,新的東西開始佔據主導,算力池的規模、人才的密度、應用層的反饋速度。三者共同決定了迭代能跑多快。 

海外頭部公司的收入結構已經說明了方向。 

Anthropic 年化收入從 90 億美元翻到 300 億美元,用了四個月,增量幾乎全部來自 Claude Code 這一款編程智能體。Cursor 一個代碼編輯器,估值 600 億美元。GitHub Copilot 覆蓋了 2000 萬開發者。 

錢在流向能直接產出代碼、產出工具、產出應用的產品。

國內同行也在快速補位,字節、阿里、騰訊各自鋪了 Coding 和 Agent 產品線,智譜和月之暗面的 API 在年初的小龍蝦熱潮中被打爆,恰恰因為它們在 Coding 方向上的押注。 

很顯然,單點的模型能力仍然重要,但不再是唯一的決定因素。資源、組織、系統能力,開始成為關鍵變量。中國幾家頭部公司過去一年的動作路徑不同,方向一致,把模型能力嵌入到更大的系統里。 

DeepSeek 有全球開源社區最高的人氣,GitHub 上 17 萬顆星,2.6 萬個企業賬户,每月 57 億次 API 調用。但它沒有自己的 IDE,沒有 Coding 工具,沒有 Agent 產品,沒有終端用户直接為之付費的垂直應用。 

梁文鋒一直堅持模型是一切的根基。 

他最近署名的論文方向,條件記憶機制、超連接優化 Transformer,説明DeepSeek的注意力仍然在解決底層問題。這種執着在 R1 時代被驗證過,用最少的錢和人,把基礎能力做到極致,剩下的交給開源生態。 

但當競爭從基礎模型能力擴展到能力 + 產品 + 生態同時比拼的時候,只有發動機沒有整車,再強也跑不起來。 

3 月 29 日晚間,DeepSeek 遭遇了上線以來持續時間最長的一次服務中斷,超過 7 小時,波及數億用户。官方沒有解釋原因。中斷期間競品流量明顯跳升,部分企業客户開始考慮多平臺冗余策略。 

一次宕機不會殺死一家公司,但它把一個事實推到了檯面上。當用户從百萬級漲到億級,基礎設施的投入就不是效率優化能兜住的了。

幻方的利潤撐得住,但撐得不從容。 

四、3 億美元買什麼?

3 億美元對 100 億美元的估值來説,稀釋比例不到 3%。對比 Anthropic 和OpenAI 這樣的巨頭來説,這個數字甚至顯得極為剋制。 

梁文鋒真正想買的東西,可能不在資產負債表上。

首先,期權終於有了錨點。 100 億美元的定價一旦確認,核心團隊手里的股權就成了真金白銀。對一個正在被大廠逐個挖角的團隊來説,這個信號比任何加薪方案都管用,現階段止住人才流失至關重要。 

其次,這是 V4 的保險金。 

華為昇騰的全量適配本身就在燒資源,與此同時媒體報道稱DeepSeek 也在用英偉達最新一代 Blackwell 芯片訓練下一代模型,而這款芯片受出口管制影響,獲取節奏存在變數。兩條硬件路線並行,資金消耗成倍放大。 

最微妙的一層是,這是一張進入下半場的入場券。

AI 競爭已進入模型、產品、生態、資本四輪驅動的階段。你可以擁有全球最好的發動機,但如果沒有資本背書和產品生態,你最終只是產業鏈里的一名高級供應商,看別人拿你的模型賺錢。 

從 V4 的研發方向來看,梁文鋒大概已經意識到了這一點。多方信源顯示,V4 的規劃明確包含了 AI 搜索、長期記憶和代碼能力的大幅躍升,這些都是 Agent 時代的底層能力。 

DeepSeek 在補課。融資,是爲了讓這門課來得及上完。 

【版面之外】的話:

外界很容易把這次轉向理解為妥協。但換一個角度看,它更接近一種從實驗狀態向工業狀態的進化。 

AI 行業的成本曲線已陡然上揚,人才通脹超出了所有人的預期。依靠個人風格和單一利潤源去扛一家超級獨角獸,變得越來越不現實。 

梁文鋒過去的選擇有它的邏輯,控制規模、避免過早商業化、保持研發的純度。這樣的選擇,在特定階段極具爆發力,但行業節奏最終會對所有人產生約束。 

3 億美元,是梁文鋒第一次公開承認這件事。 

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。