她為何被雷軍挖角

2025-01-21 15:35

（來源：投資界）

2024年末，一箇中國AI小廠，憑藉過硬的技術，獲得了全球鋪天蓋地的關注。

聖誕節過后，海外社交媒體以及技術論壇Github都在討論一個最新發布的開源大模型，DeepSeek-V3。它被外國網友冠以名號——「來自東方的神祕力量」。

多個評測報告里，DeepSeek-V3在世界開源模型之中處在第一梯隊，超過扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5兩個最頂尖大模型也毫不遜色，甚至，其在數學推理、代碼生成和長文本處理等指標上，表現更強。

DeepSeek-V3 及其同類產品的基準性能比較

這還不是中國AI公司DeepSeek（中文名：深度求索）全部的「拿手好戲」。更讓美國硅谷等同行摸不着頭腦的是，DeepSeek公佈的53頁技術報告顯示，其訓練頂尖大模型只用了2048張H100的GPU集羣，花費53天，共計耗費557.6萬美元。有專業人員指出，同等水平之下，世界AI大廠至少要用1.6萬張以上的GPU，有的甚至需要10萬張GPU並行訓練。

OpenAI早期成員安德烈·卡帕西感慨，DeepSeek-V3的出現意味着，今后也許不需要大型GPU集羣來訓練前沿的大語言模型了。Scale AI的華裔CEO亞歷山大·王更感慨道，DeepSeek-V3帶給美國最大的教訓是，「當美國人休息時，中國正在努力工作，最終以更低的成本、更快的速度迎頭趕上，變得更強」。

這一以低成本聞名的小團隊顛覆了國外AI巨頭發展的固定範式，是被外界認為最像（早期）OpenAI的開源機構。事實上，這家小廠位於杭州，創始人從浙江大學畢業，2015年創立了公司幻方量化，幾年之間，成為中國少有的突破千億規模的量化私募機構。

一家金融公司搞出了一個最有氣質的AI大模型公司，本身已經令人稱奇。與此同時，DeepSeek堅持技術開源，每次模型發佈后，都會公佈細節滿滿的技術報告。多年來，他們在AI大模型領域默默斬棘，不談商業化，不發佈新產品，對外保持低調。

「神祕的東方力量」，到底想做什麼？

AI界拼多多，來了

2024年末，一則「雷軍千萬年薪挖角‘95后’AI天才少女」的熱帖火遍全網。人們驚訝地發現，名為羅福莉的天才少女，此前供職於在公眾面前寂寂無聞的AI公司——DeepSeek深度求索。

事實上，早在這之前，成立剛滿一年的DeepSeek就已經在AI業內出了圈。半年多前，2024年5月，DeepSeek發佈開源第二代MoE大模型DeepSeek-V2。這是它進入業界主流視野的標誌事件。

在這個誠意到位的開源大模型中，DeepSeek-V2沒有沿用國際主流的「類LLaMA的Dense結構」和「類Mistral的Sparse結構」，而是對模型框架進行創新，採用MLA（Multi-head Latent Attention，多頭潛在注意力）架構。

創新提高了計算效率，降低了AI運行的高昂成本。作為開源大模型，DeepSeek同時公佈了使用其API的價目表：每百萬tokens輸入1元、輸出2元（32K上下文）。作為對比，GPT-4 Turbo每百萬tokens的輸入、輸出價格分別為72元、217元。

DeepSeek-V2與各大模型API價目表對比

「真正的國產之光出現了。」AI圈內人士驚喜地評價。從此，DeepSeek有了「AI界拼多多」的外號。

如此低的價格，令國內AI巨頭紛紛降價。

誰也沒能預料到的是，這個重塑業界生態的AI公司，背后是一家量化基金公司。「我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤。」幻方量化實控人、DeepSeek創始人梁文鋒在受訪時解釋。

這是深度求索在2024年第一次引發AI行業震動。OpenAI前政策主管、Anthropic聯合創始人Jack Clark評價：「（DeepSeek）僱傭了一批高深莫測的奇才。」

主要操盤手梁文鋒，來自廣東五線城市，「80后」，畢業於浙江大學電子工程系人工智能方向。2015年，他成立了量化基金公司幻方量化，創始成員多來自浙大。他們共同堅信，利用AI進行風險對衝，計算機也可以像人類一樣投資。

梁文鋒曾為「量化投資之父」西蒙斯的傳記作序。他寫道：「每當在工作中遇到困難時，我都想起西蒙斯説的，‘一定有辦法對價格建模’。」2018年，量化私募因高頻交易策略在股市迅速崛起，幻方成爲了中國「量化四大天王」之一，一度管理資金規模超過千億。

對AI大模型的堅定部署，來自創始人對AI技術的相信，也源於現實業務的需要。2020年，幻方聯合創始人徐進在知乎發招募帖，回顧了幻方AI的發展歷程：早在2008年開始，幻方創始團隊通過AI Lab招募全球頂尖人工智能專家，在經濟金融領域開展研究。

隨着數據量的爆發式增長，模型越來越龐大，傳統的計算集羣已經很難適應大型神經網絡模型訓練的需求。

2020年3月，幻方量化推出了超級計算機「螢火一號」，佔地面積相當於一個籃球場，由一個存儲集羣和一個計算集羣組成，並開出百萬年薪招聘深度學習工程師。

一年后，2021年，幻方推出了「螢火二號」，投資增加到10億元，搭載了約1萬張英偉達顯卡。這一大手筆的投入后來被外界認為，是幻方最有前瞻性的部署之一。

畢竟，僅僅一年后，2022年8月，美國宣佈其停止向中國出口A100和H100兩款芯片。成立於2023年的DeepSeek，成爲了除字節跳動、商湯科技等大廠以外，少有的擁有萬卡集羣的中國公司。

與「高大上」的實力形成鮮明反差的是，幻方量化內部人員對南風窗透露，DeepSeek管理「非常扁平」，以技術人員為主。公司沒有正式的公關人員，也沒有對外「融過錢」。創始人梁文鋒基本不接受採訪，公司也沒有對外公關的需求。

團隊也秉承着小而美的設計。「原先幻方量化大概有兩百人左右，（DeepSeek）其實財務、法務、行政都是幻方量化支持的，大模型團隊算法工程團隊有八九十人。」該內部人士介紹。

創新的祕訣

是時候看一看這個驚艷國內外的全新開源大模型了。

南風窗記者通過實測發現，DeepSeek-V3在數學、編程領域展示出較好的答題能力，打破過去人們對「AI不擅長數學」的印象。除了傳統的文本對話，DeepSeek-V3有一個相比其他AI大模型更特別的功能——「深度思考」。意思是，在AI生成正式答案之前，DeepSeek-V3會展示機器進行推理、「思考」的過程。

例如，對着DeepSeek-V3，記者輸入了問題：「請給我影響人們工作積極性的分析框架，並提出面對職業倦怠的解決方案。」

DeepSeek在11秒間生成了答案的思考過程：「嗯。首先，我得想想工作積極性受哪些因素影響。可能有內部因素和外部因素吧。內部因素比如個人的興趣、價值觀、情緒狀態等。外部因素包括工作環境、薪酬福利、晉升機會、同事關係、領導風格……」

這些「思考」頗具人類的思維過程。它繼續生成道：「我記得馬斯洛的需求層次理論，生理、安全、社交、尊重和自我實現需求，都可能影響工作積極性。還有赫茲伯格的雙因素理論，區分了保健因素和激勵因素。保健因素如工資、工作條件，如果不好會引起不滿，但即使好也不會直接激勵；激勵因素如認可、責任、成長機會，這些才能真正提升工作積極性……」

經歷這番「思考」后，DeepSeek-V3生成了八個方面的內容，供人蔘考。其中也不乏套話，也有些給人靈感的內容。比如，它寫道：「‘生活不是我們活過的日子，而是我們記住的日子。’馬爾克斯提醒着我們，生活的意義在於我們如何賦予它意義。工作亦是如此。」

涌現的智能不只是大參數暴力美學的體現，更重要的是，這是一個效率奇高、由眾多前所未有的設計組合而成的超級工程。

DeepSeek-V3 多項評測優於其他模型

簡單而言，DeepSeek實現降本增效，並沒有提出前所未有的新技術，而是首次成功將各個技術，通過巧妙地設計與優化，完美地搭配並實現落地。這是一次來自工程層面的勝利。

用該團隊自己的話來解釋，幫助DeepSeek-V3實現降本的方法無非兩個，一是算力需求降低，二是訓練AI時間減少。

所謂算力需求降低，一個主要的辦法是在訓練模型時，對數據進行壓縮。壓縮之后，運算單元（GPU和CPU）進行運算的數據量就會減少，運算速率也會提升。為此，DeepSeek運用的一個主要辦法是——MLA多層注意力架構。

簡單的一個例子是，人們閲讀一篇文章時，眼睛和大腦會自然地關注文章中的關鍵句和段落，忽略不那麼重要的信息。多層注意力機制在AI中的作用也非常類似。在模型處理大量數據時，它能夠更加有效地識別和處理關鍵信息和特徵。一旦AI確定了關鍵特徵，它就可以將特徵壓縮成一個更小的向量，從而節省運算需求。

除此之外，據騰訊科技報道，DeepSeek-V3還引入了一種名叫FP8混合精度訓練的框架，並首次在超大模型上驗證了其有效性。

所謂FP8，就是用8個二進制位來表示數字的格式，相比傳統的32位（FP32）和16位（FP16）格式，精度低了很多，但是佔用空間小，計算快。

FP8混合精度訓練框架

而在節約計算時間上，DeepSeek也很有一手。DeepSeek-V3的預訓練階段僅需要266.4萬個GPU小時。相較之下，LLaMa 3 405B的大模型預訓練花費了共計3080萬個GPU小時，大約是DeepSeek-V3的11倍。

這其中的一個創新在於，DeepSeek克服了傳統GPU運算中的「計算氣泡」。所謂氣泡，是指GPU在流水線並行處理中，不同的神經網絡層有不同的處理時間。當一個階段完成其計算任務后，如果另一個階段還在運算，沒準備好接收數據，就會產生等待時間，即「氣泡」。「計算氣泡」會導致GPU資源的浪費。

而DeepSeek採用了DualPipe跨節點通信優化流水線流程，簡單而言，便是通過雙重流水線的並行設計，讓多個計算任務同時進行，計算氣泡大大減少。

DeepSeek一系列操作，彷彿一個本身成績不錯的尖子生，在一些無人在意但重要的細節上，追求極致，死磕到底。最終，經過全方位的小步提升，它的水平又上了一個新臺階，如同DeepSeek在官方微信號上的介紹：「不做中庸的事。」

技術理想主義者的追求

憑藉硬實力，DeepSeek正吸引着全球的目光與關注。前英偉達機器學習專家Bojan Tunguz公開評價，DeepSeek讓人可以看到，所有針對高端半導體的出口禁令，實際上可能以可以想象到的「最壞」方式產生了反效果。「它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。」

一位AI從業人員告訴南風窗，DeepSeek最驚人的是讓AI業界認識到，大模型的Scaling Law（規模效應）不完全意味着燒錢堆資源，通過不算太複雜的優化之后，1/10的開銷就能做出大模型。

「所以現在（多數AI大廠）訓大語言模型（LLM）的資源利用率是很低的，優化一下，就有機會以相同的開銷把規模再擴大10倍。」

小廠的實力，讓Meta、谷歌、xAI等不缺資源、不缺顯卡的超級大廠相形見絀。2024年，多家硅谷大廠都進入了AI算力的軍備競賽之中。

2024年10月，馬斯克在田納西州僅耗時19天，就建設了史上最大超級計算機廠，內部配備了10萬塊液冷英偉達芯片。而早在2024年3月，微軟和OpenAI聯合宣佈，將建造一臺名為「星門」的超級計算機，預計將使用數百萬專用服務器芯片，總投資高達1000億美元。

這些資金充足、「儲備」同樣充足的頭部公司，在AI的進程上理應先人一步。而事實上，它們中許多陷入了表現爲效率低下、內部混亂的「大公司病」之中。

扎克伯格的Meta是其中最典型的例證。2023年，Meta的首席技術官（CTO）約翰·卡馬克辭任前，在公司的內部信中大篇幅地傾吐了對小扎管理的不滿。他説，Meta效率低下，只有「5%的GPU利用率」；內鬥嚴重，即便他「在這擁有最高等級的聲音」，依舊力不從心。

相比之下，對於中國AI初創公司而言，資源匱乏已經是板上釘釘。在有限的GPU和芯片集羣中，他們中很多隻能將資源與研究重心，放在第一重要的事情上。

只是，不同於多數中國公司強調商業化、做爆款產品，DeepSeek創始人梁文鋒在接受「暗涌wave」採訪時説：「我們覺得現在最重要的是，參與到全球創新的浪潮里去。」

他強調，團隊希望實現的是一種原始性創新。

「過去很多年，中國公司習慣了別人做技術創新，我們拿過來做應用變現，但這並非是一種理所當然。這一波浪潮里，我們的出發點，就不是趁機賺一筆，而是走到技術的前沿，去推動整個生態發展。」梁文鋒説。

這個保持低調和神祕的創新團隊，鮮少對外發聲，只在開源大模型公佈時，發佈了技術細節報告和人才招攬帖。但創始人梁文鋒透露，在DeepSeek團隊里，「並沒有什麼高深莫測的奇才，都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生，還有一些畢業才幾年的年輕人」。團隊沒有海外回來的人，員工都是本土的人才。

而據科技媒體《量子位》爆料，DeepSeek的員工很多都是畢業於清華北大的應屆生，「最大的特點是年輕」。

「大部分中國公司習慣follow，而不是創新。中國創新缺的不是資本，而是缺乏信心以及不知道怎麼組織高密度的人才。前50名頂尖人才可能不在中國，但也許，我們能自己打造這樣的人。」他説。

年輕的團隊將如何實現AGI夢想？這一次，是中國小廠開始讓人期待了。

關注它，能讓你聽到更多真話，多一分對世界的理解。

她為何被雷軍挖角

推薦文章

華盛早報 | 美國正式公告！徵收歐盟汽車15%關税；阿里大漲逾8%創近四年新高

新金主要來了？英特爾據悉尋求蘋果投資 股價大漲逾6%

美聯儲「陣陣鷹風」中終於傳來「鴿聲」！戴利：還會進一步降息

美股機會日報 | 美財長貝特森：鮑威爾本該暗示降息100至150基點！3800億基建+英偉達合作！阿里盤前飆漲近9%

國慶節后恆指上漲概率超72%！假期前后如何佈局？

華盛早報 | 估值警鍾敲響！鮑威爾稱美股估值相當高；「木頭姐」豪擲2100萬美元買入阿里等中概股

美股機會日報 | 凌晨00:35！鮑威爾將發表重要講話；阿里Qwen團隊今晚將發佈6個「新東西」

華盛早報 | 美聯儲理事米蘭「首秀」，呼籲激進降息；英偉達漲近4%市值突破4.5萬億美元

新金主要來了？英特爾據悉尋求蘋果投資股價大漲逾6%