熱門資訊> 正文
2025-01-26 17:09
專題:DeepSeek為何能震動全球AI圈
轉自:金融界
周末瘋狂刷屏,來自國內量化私募巨頭幻方量化的DeepSeek大模型的震動全球AI圈!
近日,DeepSeek公司宣佈正式發佈最新人工智能模型DeepSeek-R1,並同步開源模型權重。DeepSeek-R1在后訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。
DeepSeek-R1在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。數據顯示,DeepSeek-R1在算法類代碼場景(Codeforces)和知識類測試(GPQA、MMLU)中的得分略低於OpenAI o1,但在工程類代碼場景(SWE-Bench Verified)、美國數學競賽(AIME 2024, MATH)項目上,均超過了OpenAI o1 。
更重要的是,工作人員發現,在DeepSeek-R1-Zero自我學習的過程,隨着時間的增加,該模型「涌現」出了複雜的行為,如自我反思、評估先前步驟、自發尋找替代方案的情況,還包括一次「尤里卡時刻」(「aha moment」)。「尤里卡時刻」指人類突然理解一個以前無法理解的問題或概念的某個時刻。
深度求索透露,這次「尤里卡」發生在DeepSeek-R1-Zero的的中間版本期間。當時工作人員驚奇地發現,在一道數學題中,該模型學會了使用擬人化的語氣進行自我反思,並主動為問題分配了更多的時間進行重新思考。
震動全球AI圈
這一消息震動全球AI圈,美國AI公司研究人員對中國大模型技術感到吃驚。
在最近兩天DeepSeek-R1引發海外廣泛討論后,目前DeepSeek在蘋果App Store應用商店美區免費榜排行第六,超越Google Gemini、Microsoft Copilot等美國生成式AI產品。今日有網友反映,DeepSeek崩了,提示服務器繁忙。
一位Meta的工程師在美國科技公司員工社區Blind中這樣寫道,「Meta的生成式AI部門正處於恐慌中。這一切始於DeepSeek,它使得 Llama 4 在基準測試中已經落后。雪上加霜的是:那個不知名的中國公司,僅有550萬美元的訓練預算。工程師們正在瘋狂地剖析DeepSeek,並試圖從中複製一切可能的東西。」
」英偉達高級研究科學家Jim Fan表示,DeepSeek-R1可能是第一個展示了RL(強化學習)飛輪可發揮作用且能帶來持續增長的OSS(開源軟件)項目。加利福尼亞大學伯克利分校教授Alex Dimakis則稱,DeepSeek似乎是奔赴OpenAI最初使命的「最佳人選」,其他公司需要迎頭趕上。
硅谷風投A16Z創始人Marc Andreessen也發表評論稱,DeepSeek-R1是他見過的最令人驚歎且令人印象深刻的一個突破,作為開源的模型,它的面世給世界帶來了一份禮物。
不過,「深度學習」三巨頭之一、圖靈獎得主、Meta AI首席科學家楊立昆表示,DeepSeek-R1面世與其説意味着中國公司在AI領域正在超越美國公司,不如説意味着開源大模型正在超越閉源。
訓練成本大降,利空英偉達?
此外,值得注意的是DeepSeek-R1 API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens16元,輸出API價格只有OpenAI o1的3%。低價背后,顯然仍是秀肌肉,價格實力展現了技術實力——從AIInfra 層面降本的技術能力。
而訓練成本一直是DeepSeek的一大優勢。
在其12月底發佈的DeepSeek-V3中,參數量為671B,激活參數為37B,使用的預訓練token量為14.8萬億。其多項評測成績超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等其他開源模型,並在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
前OpenAI聯創、知名AI科學家AndrejKarpathy在其個人社交平臺上表示,DeepSeek-V3整個訓練過程僅用了不到280萬GPU小時,相比之下,Meta旗下頂尖的開源模型Llama-3405B的訓練時長是3080萬GPU小時。如果DeepSeekV3的優良表現能夠得到廣泛驗證,那麼這將是資源有限情況下對研究和工程的一次出色展示。若從成本上進行更直觀的對比,假設H800的租金為每GPU小時2美元,DeepSeek-V3的總訓練成本僅為600萬美元不到,是Llama-3405B超6000萬美元訓練成本的十分之一不到。
對於深度求索強大的降本能力,「AI界的拼多多」呼聲四起。
英偉達的競爭對手、知名半導體公司超微半導體(AMD)昨日發佈消息稱,已將DeepSeek-V3模型集成到AMD的芯片產品Instinct MI300X GPU上,該模型旨在與SGLang一起實現最佳性能。DeepSeek-V3針對Al推理進行了優化。業內人士分析稱,AMD作為全球領先的芯片廠商,通過與DeepSeek合作將為AI推理帶來新的想象空間,也有望動搖「英偉達+OpenAI」聯合主導的行業格局,改變既有的遊戲規則。
DeepSeek不僅將模型訓練成本大幅降低,而且發佈的新模型R1也同步開源模型權重,公開了完整訓練細節,挑戰了閉源系統的優勢。隨着DeepSeek將AI大模型技術及使用門檻降低,有市場人士擔憂,DeepSeekR1的崛起可能會削弱市場對英偉達AI芯片需求的預期,對英偉達的市場地位和戰略佈局產生影響。
有觀點認為,DeepSeek-V3極低的訓練成本預示着AI大模型對算力投入的需求將大幅下降,這無疑將利空全球AI算力的核心供應商英偉達。
網名調侃:中國股民做出貢獻
DeepSeek是國內量化巨頭幻方量化的子公司。依靠DeepSeek的出色表現,量化巨頭幻方量化創始人梁文鋒也迅速奠定了在AI圈地位。
梁文鋒本碩均就讀於浙江大學信息與電子工程學專業。2015年,梁文鋒與校友共同創立幻方量化。2021年,幻方量化成為國內首家突破千億規模的的量化私募大廠,被稱為國內量化私募「四大天王」之一。早年,幻方量化開始大規模佈局 AI 算力,搭建起「螢火一號」集羣。2021年,「螢火二號」落成,這給了DeepSeek快速奔跑的底層支撐。
對此,有人調侃,中國股民給世界AI最大的的貢獻就是讓幻方量化賺了那麼多錢。然后幻方量化創始人有錢買最好的GPU,收納一批中國最牛的精英,做出了不錯的Deepseek。