利空英偉達？國產DeepSeek大模型震動全球AI圈，周末瘋狂刷屏，量化私募巨頭成功跨界AI！

2025-01-26 17:09

專題：DeepSeek為何能震動全球AI圈

轉自：金融界

周末瘋狂刷屏，來自國內量化私募巨頭幻方量化的DeepSeek大模型的震動全球AI圈！

近日，DeepSeek公司宣佈正式發佈最新人工智能模型DeepSeek-R1，並同步開源模型權重。DeepSeek-R1在后訓練階段大規模使用了強化學習技術，在僅有極少標註數據的情況下，極大提升了模型推理能力。

DeepSeek-R1在數學、代碼、自然語言推理等任務上，性能比肩OpenAI o1正式版。數據顯示，DeepSeek-R1在算法類代碼場景（Codeforces）和知識類測試（GPQA、MMLU）中的得分略低於OpenAI o1，但在工程類代碼場景（SWE-Bench Verified）、美國數學競賽（AIME 2024, MATH）項目上，均超過了OpenAI o1 。

更重要的是，工作人員發現，在DeepSeek-R1-Zero自我學習的過程，隨着時間的增加，該模型「涌現」出了複雜的行為，如自我反思、評估先前步驟、自發尋找替代方案的情況，還包括一次「尤里卡時刻」（「aha moment」）。「尤里卡時刻」指人類突然理解一個以前無法理解的問題或概念的某個時刻。

深度求索透露，這次「尤里卡」發生在DeepSeek-R1-Zero的的中間版本期間。當時工作人員驚奇地發現，在一道數學題中，該模型學會了使用擬人化的語氣進行自我反思，並主動為問題分配了更多的時間進行重新思考。

震動全球AI圈

這一消息震動全球AI圈，美國AI公司研究人員對中國大模型技術感到吃驚。

在最近兩天DeepSeek-R1引發海外廣泛討論后，目前DeepSeek在蘋果App Store應用商店美區免費榜排行第六，超越Google Gemini、Microsoft Copilot等美國生成式AI產品。今日有網友反映，DeepSeek崩了，提示服務器繁忙。

一位Meta的工程師在美國科技公司員工社區Blind中這樣寫道，「Meta的生成式AI部門正處於恐慌中。這一切始於DeepSeek，它使得 Llama 4 在基準測試中已經落后。雪上加霜的是：那個不知名的中國公司，僅有550萬美元的訓練預算。工程師們正在瘋狂地剖析DeepSeek，並試圖從中複製一切可能的東西。」

」英偉達高級研究科學家Jim Fan表示，DeepSeek-R1可能是第一個展示了RL（強化學習）飛輪可發揮作用且能帶來持續增長的OSS（開源軟件）項目。加利福尼亞大學伯克利分校教授Alex Dimakis則稱，DeepSeek似乎是奔赴OpenAI最初使命的「最佳人選」，其他公司需要迎頭趕上。

硅谷風投A16Z創始人Marc Andreessen也發表評論稱，DeepSeek-R1是他見過的最令人驚歎且令人印象深刻的一個突破，作為開源的模型，它的面世給世界帶來了一份禮物。

不過，「深度學習」三巨頭之一、圖靈獎得主、Meta AI首席科學家楊立昆表示，DeepSeek-R1面世與其説意味着中國公司在AI領域正在超越美國公司，不如説意味着開源大模型正在超越閉源。

訓練成本大降，利空英偉達？

此外，值得注意的是DeepSeek-R1 API服務定價為每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens16元，輸出API價格只有OpenAI o1的3%。低價背后，顯然仍是秀肌肉，價格實力展現了技術實力——從AIInfra 層面降本的技術能力。

而訓練成本一直是DeepSeek的一大優勢。

在其12月底發佈的DeepSeek-V3中，參數量為671B，激活參數為37B，使用的預訓練token量為14.8萬億。其多項評測成績超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他開源模型，並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

前OpenAI聯創、知名AI科學家AndrejKarpathy在其個人社交平臺上表示，DeepSeek-V3整個訓練過程僅用了不到280萬GPU小時，相比之下，Meta旗下頂尖的開源模型Llama-3405B的訓練時長是3080萬GPU小時。如果DeepSeekV3的優良表現能夠得到廣泛驗證，那麼這將是資源有限情況下對研究和工程的一次出色展示。若從成本上進行更直觀的對比，假設H800的租金為每GPU小時2美元，DeepSeek-V3的總訓練成本僅為600萬美元不到，是Llama-3405B超6000萬美元訓練成本的十分之一不到。

對於深度求索強大的降本能力，「AI界的拼多多」呼聲四起。

英偉達的競爭對手、知名半導體公司超微半導體（AMD）昨日發佈消息稱，已將DeepSeek-V3模型集成到AMD的芯片產品Instinct MI300X GPU上，該模型旨在與SGLang一起實現最佳性能。DeepSeek-V3針對Al推理進行了優化。業內人士分析稱，AMD作為全球領先的芯片廠商，通過與DeepSeek合作將為AI推理帶來新的想象空間，也有望動搖「英偉達+OpenAI」聯合主導的行業格局，改變既有的遊戲規則。

DeepSeek不僅將模型訓練成本大幅降低，而且發佈的新模型R1也同步開源模型權重，公開了完整訓練細節，挑戰了閉源系統的優勢。隨着DeepSeek將AI大模型技術及使用門檻降低，有市場人士擔憂，DeepSeekR1的崛起可能會削弱市場對英偉達AI芯片需求的預期，對英偉達的市場地位和戰略佈局產生影響。

有觀點認為，DeepSeek-V3極低的訓練成本預示着AI大模型對算力投入的需求將大幅下降，這無疑將利空全球AI算力的核心供應商英偉達。

網名調侃：中國股民做出貢獻

DeepSeek是國內量化巨頭幻方量化的子公司。依靠DeepSeek的出色表現，量化巨頭幻方量化創始人梁文鋒也迅速奠定了在AI圈地位。

梁文鋒本碩均就讀於浙江大學信息與電子工程學專業。2015年，梁文鋒與校友共同創立幻方量化。2021年，幻方量化成為國內首家突破千億規模的的量化私募大廠，被稱為國內量化私募「四大天王」之一。早年，幻方量化開始大規模佈局 AI 算力，搭建起「螢火一號」集羣。2021年，「螢火二號」落成，這給了DeepSeek快速奔跑的底層支撐。

對此，有人調侃，中國股民給世界AI最大的的貢獻就是讓幻方量化賺了那麼多錢。然后幻方量化創始人有錢買最好的GPU，收納一批中國最牛的精英，做出了不錯的Deepseek。

利空英偉達？國產DeepSeek大模型震動全球AI圈，周末瘋狂刷屏，量化私募巨頭成功跨界AI！

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？