熱門資訊> 正文
2025-01-21 15:35
(來源:投資界)
2024年末,一箇中國AI小廠,憑藉過硬的技術,獲得了全球鋪天蓋地的關注。
聖誕節過后,海外社交媒體以及技術論壇Github都在討論一個最新發布的開源大模型,DeepSeek-V3。它被外國網友冠以名號——「來自東方的神祕力量」。
多個評測報告里,DeepSeek-V3在世界開源模型之中處在第一梯隊,超過扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5兩個最頂尖大模型也毫不遜色,甚至,其在數學推理、代碼生成和長文本處理等指標上,表現更強。
這還不是中國AI公司DeepSeek(中文名:深度求索)全部的「拿手好戲」。更讓美國硅谷等同行摸不着頭腦的是,DeepSeek公佈的53頁技術報告顯示,其訓練頂尖大模型只用了2048張H100的GPU集羣,花費53天,共計耗費557.6萬美元。有專業人員指出,同等水平之下,世界AI大廠至少要用1.6萬張以上的GPU,有的甚至需要10萬張GPU並行訓練。
OpenAI早期成員安德烈·卡帕西感慨,DeepSeek-V3的出現意味着,今后也許不需要大型GPU集羣來訓練前沿的大語言模型了。Scale AI的華裔CEO亞歷山大·王更感慨道,DeepSeek-V3帶給美國最大的教訓是,「當美國人休息時,中國正在努力工作,最終以更低的成本、更快的速度迎頭趕上,變得更強」。
這一以低成本聞名的小團隊顛覆了國外AI巨頭發展的固定範式,是被外界認為最像(早期)OpenAI的開源機構。事實上,這家小廠位於杭州,創始人從浙江大學畢業,2015年創立了公司幻方量化,幾年之間,成為中國少有的突破千億規模的量化私募機構。
一家金融公司搞出了一個最有氣質的AI大模型公司,本身已經令人稱奇。與此同時,DeepSeek堅持技術開源,每次模型發佈后,都會公佈細節滿滿的技術報告。多年來,他們在AI大模型領域默默斬棘,不談商業化,不發佈新產品,對外保持低調。
「神祕的東方力量」,到底想做什麼?
AI界拼多多,來了
2024年末,一則「雷軍千萬年薪挖角‘95后’AI天才少女」的熱帖火遍全網。人們驚訝地發現,名為羅福莉的天才少女,此前供職於在公眾面前寂寂無聞的AI公司——DeepSeek深度求索。
事實上,早在這之前,成立剛滿一年的DeepSeek就已經在AI業內出了圈。半年多前,2024年5月,DeepSeek發佈開源第二代MoE大模型DeepSeek-V2。這是它進入業界主流視野的標誌事件。
在這個誠意到位的開源大模型中,DeepSeek-V2沒有沿用國際主流的「類LLaMA的Dense結構」和「類Mistral的Sparse結構」,而是對模型框架進行創新,採用MLA(Multi-head Latent Attention,多頭潛在注意力)架構。
創新提高了計算效率,降低了AI運行的高昂成本。作為開源大模型,DeepSeek同時公佈了使用其API的價目表:每百萬tokens輸入1元、輸出2元(32K上下文)。作為對比,GPT-4 Turbo每百萬tokens的輸入、輸出價格分別為72元、217元。
「真正的國產之光出現了。」AI圈內人士驚喜地評價。從此,DeepSeek有了「AI界拼多多」的外號。
如此低的價格,令國內AI巨頭紛紛降價。
誰也沒能預料到的是,這個重塑業界生態的AI公司,背后是一家量化基金公司。「我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。」幻方量化實控人、DeepSeek創始人梁文鋒在受訪時解釋。
這是深度求索在2024年第一次引發AI行業震動。OpenAI前政策主管、Anthropic聯合創始人Jack Clark評價:「(DeepSeek)僱傭了一批高深莫測的奇才。」
主要操盤手梁文鋒,來自廣東五線城市,「80后」,畢業於浙江大學電子工程系人工智能方向。2015年,他成立了量化基金公司幻方量化,創始成員多來自浙大。他們共同堅信,利用AI進行風險對衝,計算機也可以像人類一樣投資。
梁文鋒曾為「量化投資之父」西蒙斯的傳記作序。他寫道:「每當在工作中遇到困難時,我都想起西蒙斯説的,‘一定有辦法對價格建模’。」2018年,量化私募因高頻交易策略在股市迅速崛起,幻方成爲了中國「量化四大天王」之一,一度管理資金規模超過千億。
對AI大模型的堅定部署,來自創始人對AI技術的相信,也源於現實業務的需要。2020年,幻方聯合創始人徐進在知乎發招募帖,回顧了幻方AI的發展歷程:早在2008年開始,幻方創始團隊通過AI Lab招募全球頂尖人工智能專家,在經濟金融領域開展研究。
隨着數據量的爆發式增長,模型越來越龐大,傳統的計算集羣已經很難適應大型神經網絡模型訓練的需求。
2020年3月,幻方量化推出了超級計算機「螢火一號」,佔地面積相當於一個籃球場,由一個存儲集羣和一個計算集羣組成,並開出百萬年薪招聘深度學習工程師。
一年后,2021年,幻方推出了「螢火二號」,投資增加到10億元,搭載了約1萬張英偉達顯卡。這一大手筆的投入后來被外界認為,是幻方最有前瞻性的部署之一。
畢竟,僅僅一年后,2022年8月,美國宣佈其停止向中國出口A100和H100兩款芯片。成立於2023年的DeepSeek,成爲了除字節跳動、商湯科技等大廠以外,少有的擁有萬卡集羣的中國公司。
與「高大上」的實力形成鮮明反差的是,幻方量化內部人員對南風窗透露,DeepSeek管理「非常扁平」,以技術人員為主。公司沒有正式的公關人員,也沒有對外「融過錢」。創始人梁文鋒基本不接受採訪,公司也沒有對外公關的需求。
團隊也秉承着小而美的設計。「原先幻方量化大概有兩百人左右,(DeepSeek)其實財務、法務、行政都是幻方量化支持的,大模型團隊算法工程團隊有八九十人。」該內部人士介紹。
創新的祕訣
是時候看一看這個驚艷國內外的全新開源大模型了。
南風窗記者通過實測發現,DeepSeek-V3在數學、編程領域展示出較好的答題能力,打破過去人們對「AI不擅長數學」的印象。除了傳統的文本對話,DeepSeek-V3有一個相比其他AI大模型更特別的功能——「深度思考」。意思是,在AI生成正式答案之前,DeepSeek-V3會展示機器進行推理、「思考」的過程。
例如,對着DeepSeek-V3,記者輸入了問題:「請給我影響人們工作積極性的分析框架,並提出面對職業倦怠的解決方案。」
DeepSeek在11秒間生成了答案的思考過程:「嗯。首先,我得想想工作積極性受哪些因素影響。可能有內部因素和外部因素吧。內部因素比如個人的興趣、價值觀、情緒狀態等。外部因素包括工作環境、薪酬福利、晉升機會、同事關係、領導風格……」
這些「思考」頗具人類的思維過程。它繼續生成道:「我記得馬斯洛的需求層次理論,生理、安全、社交、尊重和自我實現需求,都可能影響工作積極性。還有赫茲伯格的雙因素理論,區分了保健因素和激勵因素。保健因素如工資、工作條件,如果不好會引起不滿,但即使好也不會直接激勵;激勵因素如認可、責任、成長機會,這些才能真正提升工作積極性……」
經歷這番「思考」后,DeepSeek-V3生成了八個方面的內容,供人蔘考。其中也不乏套話,也有些給人靈感的內容。比如,它寫道:「‘生活不是我們活過的日子,而是我們記住的日子。’馬爾克斯提醒着我們,生活的意義在於我們如何賦予它意義。工作亦是如此。」
涌現的智能不只是大參數暴力美學的體現,更重要的是,這是一個效率奇高、由眾多前所未有的設計組合而成的超級工程。
簡單而言,DeepSeek實現降本增效,並沒有提出前所未有的新技術,而是首次成功將各個技術,通過巧妙地設計與優化,完美地搭配並實現落地。這是一次來自工程層面的勝利。
用該團隊自己的話來解釋,幫助DeepSeek-V3實現降本的方法無非兩個,一是算力需求降低,二是訓練AI時間減少。
所謂算力需求降低,一個主要的辦法是在訓練模型時,對數據進行壓縮。壓縮之后,運算單元(GPU和CPU)進行運算的數據量就會減少,運算速率也會提升。為此,DeepSeek運用的一個主要辦法是——MLA多層注意力架構。
簡單的一個例子是,人們閲讀一篇文章時,眼睛和大腦會自然地關注文章中的關鍵句和段落,忽略不那麼重要的信息。多層注意力機制在AI中的作用也非常類似。在模型處理大量數據時,它能夠更加有效地識別和處理關鍵信息和特徵。一旦AI確定了關鍵特徵,它就可以將特徵壓縮成一個更小的向量,從而節省運算需求。
除此之外,據騰訊科技報道,DeepSeek-V3還引入了一種名叫FP8混合精度訓練的框架,並首次在超大模型上驗證了其有效性。
所謂FP8,就是用8個二進制位來表示數字的格式,相比傳統的32位(FP32)和16位(FP16)格式,精度低了很多,但是佔用空間小,計算快。
而在節約計算時間上,DeepSeek也很有一手。DeepSeek-V3的預訓練階段僅需要266.4萬個GPU小時。相較之下,LLaMa 3 405B的大模型預訓練花費了共計3080萬個GPU小時,大約是DeepSeek-V3的11倍。
這其中的一個創新在於,DeepSeek克服了傳統GPU運算中的「計算氣泡」。所謂氣泡,是指GPU在流水線並行處理中,不同的神經網絡層有不同的處理時間。當一個階段完成其計算任務后,如果另一個階段還在運算,沒準備好接收數據,就會產生等待時間,即「氣泡」。「計算氣泡」會導致GPU資源的浪費。
而DeepSeek採用了DualPipe跨節點通信優化流水線流程,簡單而言,便是通過雙重流水線的並行設計,讓多個計算任務同時進行,計算氣泡大大減少。
DeepSeek一系列操作,彷彿一個本身成績不錯的尖子生,在一些無人在意但重要的細節上,追求極致,死磕到底。最終,經過全方位的小步提升,它的水平又上了一個新臺階,如同DeepSeek在官方微信號上的介紹:「不做中庸的事。」
技術理想主義者的追求
憑藉硬實力,DeepSeek正吸引着全球的目光與關注。前英偉達機器學習專家Bojan Tunguz公開評價,DeepSeek讓人可以看到,所有針對高端半導體的出口禁令,實際上可能以可以想象到的「最壞」方式產生了反效果。「它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。」
一位AI從業人員告訴南風窗,DeepSeek最驚人的是讓AI業界認識到,大模型的Scaling Law(規模效應)不完全意味着燒錢堆資源,通過不算太複雜的優化之后,1/10的開銷就能做出大模型。
「所以現在(多數AI大廠)訓大語言模型(LLM)的資源利用率是很低的,優化一下,就有機會以相同的開銷把規模再擴大10倍。」
小廠的實力,讓Meta、谷歌、xAI等不缺資源、不缺顯卡的超級大廠相形見絀。2024年,多家硅谷大廠都進入了AI算力的軍備競賽之中。
2024年10月,馬斯克在田納西州僅耗時19天,就建設了史上最大超級計算機廠,內部配備了10萬塊液冷英偉達芯片。而早在2024年3月,微軟和OpenAI聯合宣佈,將建造一臺名為「星門」的超級計算機,預計將使用數百萬專用服務器芯片,總投資高達1000億美元。
這些資金充足、「儲備」同樣充足的頭部公司,在AI的進程上理應先人一步。而事實上,它們中許多陷入了表現爲效率低下、內部混亂的「大公司病」之中。
扎克伯格的Meta是其中最典型的例證。2023年,Meta的首席技術官(CTO)約翰·卡馬克辭任前,在公司的內部信中大篇幅地傾吐了對小扎管理的不滿。他説,Meta效率低下,只有「5%的GPU利用率」;內鬥嚴重,即便他「在這擁有最高等級的聲音」,依舊力不從心。
相比之下,對於中國AI初創公司而言,資源匱乏已經是板上釘釘。在有限的GPU和芯片集羣中,他們中很多隻能將資源與研究重心,放在第一重要的事情上。
只是,不同於多數中國公司強調商業化、做爆款產品,DeepSeek創始人梁文鋒在接受「暗涌wave」採訪時説:「我們覺得現在最重要的是,參與到全球創新的浪潮里去。」
他強調,團隊希望實現的是一種原始性創新。
「過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然。這一波浪潮里,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。」梁文鋒説。
這個保持低調和神祕的創新團隊,鮮少對外發聲,只在開源大模型公佈時,發佈了技術細節報告和人才招攬帖。但創始人梁文鋒透露,在DeepSeek團隊里,「並沒有什麼高深莫測的奇才,都是一些Top高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人」。團隊沒有海外回來的人,員工都是本土的人才。
而據科技媒體《量子位》爆料,DeepSeek的員工很多都是畢業於清華北大的應屆生,「最大的特點是年輕」。
「大部分中國公司習慣follow,而不是創新。中國創新缺的不是資本,而是缺乏信心以及不知道怎麼組織高密度的人才。前50名頂尖人才可能不在中國,但也許,我們能自己打造這樣的人。」他説。
年輕的團隊將如何實現AGI夢想?這一次,是中國小廠開始讓人期待了。
關注它,能讓你聽到更多真話,多一分對世界的理解。