熱門資訊> 正文
2025-01-27 18:13
轉自:貝殼財經
當硅谷仍在為GPU萬卡集羣豪擲千億資金時,來自杭州的一羣年輕人用557.6萬美元證明:AI大模型的比拼或許並不只靠規模,而是要看使用效率。只要技術實力足夠強,一款上架不足半個月的App也能擊敗ChatGPT,在1月27日登頂蘋果應用商店排行榜。
這幾天,AI圈最火的大語言模型,不是ChatGPT,不是文心一言,甚至不是國內「AI六小虎」中的任意一個,而是杭州AI公司深度求索所推出的DeepSeek。從去年12月26日發佈的DeepSeek-V3,到1月20日發佈的DeepSeek-R1,這家公司以OpenAI三十分之一的API價格,實現了在多項測試中表現持平甚至超越OpenAI的o1模型(下稱o1模型)的成績,給美國AI行業人士帶來了中國大模型「花小錢辦大事」的衝擊。
新京報貝殼財經記者對此進行了實測,經過同題問答發現,DeepSeek-R1的「深度思考」模式以步步推理的方式生成了具有邏輯性的回答,用户還能看到思考過程。
「這種驚喜和第一次用ChatGPT3.5差不多,甚至感覺更震撼。ChatGPT寫套路性很強的應用文很好用,但一旦涉及高語境,調侃,諷刺,就有濃濃的AI味,沒有幽默感。DeepSeek對高語境內容和中文網絡上的梗都能理解明白,內容基本達到了脱口秀文本的水平。」1月27日,IT從業者劉鴻博告訴貝殼財經記者。
低成本比肩OpenAI o1模型 硅谷「燒錢模式」遭質疑
「你能想象一個籌集了10億美元的‘前沿’實驗室,現在卻因為比不過DeepSeek而無法發佈最新的模型嗎?」DeepSeek-R1面世后的第二天,知名文生圖大模型Stable Diffusion創始人Emad就對硅谷同行們發出了這樣的「靈魂拷問」。
過去幾天,面對「橫空出世」的DeepSeek,不止一名美國AI從業者開始在社交平臺抒發自己內心深處受到的震撼。OpenAI等美國大模型公司一直通過性能領先築起自己的「護城河」,以此抵禦低價競爭者,但面對一款成本僅為「零頭」但性能同樣優秀的大模型,許多人發現這一敍事已經無法阻止用户「用腳投票」。
北京時間1月27日,DeepSeek在蘋果App Store美國區免費應用下載榜上超越ChatGPT,排名第一,在中國區排行榜上同樣登頂。此外,DeepSeek在App Store英國區免費應用下載榜的排名升至第二,僅次於ChatGPT,而該App在1月15日纔剛剛發佈。DeepSeek的出圈如同「TikTok難民」湧入小紅書一樣,先由國外用户發起。不少用户在社交平臺曬出了自己使用DeepSeek的心得,認為這個應用「非常酷」。
根據DeepSeek官方公佈的性能測試,該大模型在數學測試、編程等多個領域與o1模型表現「旗鼓相當」,其中MATH-500(評估大模型數學能力)、SWE-bench Verified(評估大模型的軟件工程能力)、美國數學邀請賽的測試分數還超過了o1模型。新京報貝殼財經記者測試發現,對於普通的問答問題,DeepSeek的表現同樣可圈可點,尤其是自帶的「深度思考」模式可以讓用户清晰瞭解到其思考過程。
除此之外,DeepSeek的訓練成本還更低,根據其公佈的技術文檔,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受到限制的英偉達H800 GPU集羣。相比之下,同樣是開源模型的Meta旗下Llama3.1 405B模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是性能更加優異的英偉達H100 GPU集羣。
雖然DeepSeek-R1模型的訓練成本並未公開,但從其API價格上也可以感受到「便宜」二字,它的定價甚至連OpenAI定價的零頭都不到。DeepSeek-R1的API服務定價為每百萬輸入tokens1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens16元,而o1模型上述三項服務的定價分別為55元、110元、438元。
事實上,價格便宜早在這次「出圈」前就是DeepSeek的標籤。去年年中,國內AI大模型大打「價格戰」時,第一個「挑起戰火」的正是DeepSeek發佈的第二代MoE大模型,但由於彼時DeepSeek並不屬於「AI六小虎」之一,其降價聲勢很快被緊跟其后宣佈降價的阿里雲、百度、科大訊飛等大廠蓋過。
現在,「小透明」不再低調,因為除了價格優勢外,其還有足以比肩o1的性能。1月27日,社交平臺認證為「AI投資機構Menlo Ventures負責人」的Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。
這可能帶來更加深遠的影響,一位Meta工程師稱其內部因DeepSeek進入「恐慌模式」,Scale AI創始人Alexander Wang評價DeepSeek是「中國科技界帶給美國的苦澀教訓」,證明「低成本、高效率」的研發模式可能顛覆硅谷巨頭的高投入路徑。社交平臺認證為「風險投資人」的ShortBear評論稱,「DeepSeek的興起對那些商業模式為銷售大量GPU(英偉達)或購買大量GPU(OpenAI、微軟、谷歌)的公司都形成了挑戰。」
截至北京時間1月27日下午2:54分,英偉達夜盤大跌7.17%。而前一個交易日(上周五1月24日)收盤下跌3.12%,報收142.62美元/股,市值蒸發超千億美元。
實測用DeepSeek搜信息、寫段子 用户可看到大模型思考過程
那麼,在C端的實際應用上,DeepSeek是否真的那麼神奇?1月26日至27日,新京報貝殼財經記者進行了實測。
在聯網搜索功能方面,記者向DeepSeek的APP應用輸入提示詞「幫我整理本周內AI行業發生的大事,並列出一個事件表」,DeepSeek很快搜索到了48個網頁並開始通過深度思考模式「自言自語」,包括「本周應該是2025年1月20日到26日」、「網頁9是2024年,應該排除」、「需要整合這些信息,排除重複」、「星門計劃在網頁5和6都有提及,日期是1月24日?需要確認」等。
最終,DeepSeek輸出了一個從1月20日至26日的事件表。記者對比發現,雖然生成的內容依然會受到抓取網頁內容錯誤的影響,但在思考過程中,DeepSeek通過對照衝突的網頁內容排除掉了一些「錯誤答案」,且思考過程清晰可見,包括哪兩個事件的時間需要確定,哪個事件需要仔細覈對等。相比之下,另外一些大模型甚至將2024年的結果列入了回答之中。
日常使用AI進行工作,還擁有自己形象數字人的愷一告訴貝殼財經記者,她在與DeepSeek的對話中發現,該大模型工具對生辰八字、奇門遁甲等中國古代文化「樣樣在行」,更關鍵的是它展現了思考問題的過程,從該過程來看可以感受到「非常專業」。
事實上,DeepSeek在回答生成過程中展現出的思考過程給不少用户帶來了震撼,認為該思考過程甚至比答案還有價值。
貝殼財經記者直接諮詢DeepSeek「為什麼你的性能如此優秀,給我一個理由」時,DeepSeek的思考過程可謂「滴水不漏」,它首先拆分了問題,將「性能優秀」拆分為響應速度、處理複雜問題能力、多語言支持等多方面,還頗有情商地考慮到了「用户可能希望瞭解技術細節,但又不想過於專業化的解釋,要考慮用户背景是不是技術人員」「在回答結構上要首先感謝用户的認可」,另外它還考慮到了「要遵守隱私和安全規範,不泄露內部技術細節」。
多名採訪對象告訴貝殼財經記者,DeepSeek對一些問題的回覆質量超過了o1模型,記者通過測試發現,DeepSeek確實熟悉中外互聯網上的各種「梗」。
愷一表示,當前市面上有不少結合付費場景的App,其內在原理就是把AI大模型嵌入軟件中,再進行微調。DeepSeek出現后,由於其開源性質,這些產品的發展空間應該會更大。
大模型自發「頓悟」 DeepSeek創新AI訓練模式
為什麼DeepSeek能夠以較低的價格訓練出性能比肩o1的大模型?根據其公佈的技術文檔,DeepSeek-R1-Zero通過單純的強化學習(RL)訓練實現推理能力,無需監督微調(SFT),打破了傳統依賴預設思維鏈的範式。
據瞭解,以往模型需要花費大量精力在監督微調上,即使用大量已標註數據對AI模型進行進一步訓練,這些數據包含了問題、對應「標準答案」、思考步驟範例,大模型正是靠着這些模仿人類思維的方式,才得以提升推理能力。
這一路徑讓AI大模型越來越聰明的同時,也帶來了另一個問題:如果大模型足夠「聰明」,可能產生獎勵欺騙問題,即利用獎勵函數中的漏洞和模糊性來獲取高獎勵,好像一個作弊技術越來越高超的考生,卻未能真正完成預期任務。
而DeepSeek摒棄了監督微調,單純依靠準確性獎勵訓練模型,且獎勵規則極其簡單。直接讓模型生成答案,然后打分,再根據高分邏輯更新模型。由於省去了監督微調中複雜的獎懲模式,計算資源的需求得以大幅減少。
事實證明,這一條路真的讓模型學會了思考乃至「頓悟」。
DeepSeek在技術文檔中透露,在DeepSeek-R1-Zero的訓練過程中,觀察到了一個特別引人注目的現象——「頓悟時刻」。這一現象發生在模型的某個中間版本中,在這一階段,DeepSeek-R1-Zero學會了通過重新評估其初步方法來為問題分配更多的思考時間。這種行為不僅證明了模型推理能力的增強,而且也是強化學習能夠帶來意外收穫的最好例子。
具體來看,在處理一個複雜的數學問題時,模型突然停下來説"Wait, wait. Wait. That's an aha moment I can flag here"(等等、等等、等等,這是個值得我記錄的‘啊哈’時刻),隨后重新審視了整個解題過程。
DeepSeek技術文檔截圖,圖中紅字為大模型自發的感慨:「等等、等等、等等,這是一個值得我記錄的時刻」。來源:DeepSeek官網
DeepSeek在技術文檔中表示,這一刻不僅對模型來説是「頓悟時刻」,對觀察其行為的研究人員來説也是如此。它強調了強化學習的力量和魅力:我們不必明確教導模型如何解決問題,只需為其提供正確的激勵,它就會自主地開發出高級的問題解決策略。「頓悟時刻」有力地提醒了我們,強化學習具有解鎖人工智能系統中新層次智能的潛力,為未來更自主和自適應的模型鋪平道路。
不少硅谷研究人員認為,這一「頓悟」時刻對AI發展意義重大,如社交平臺認證為「GEAR Lab聯合創始人、OpenAI第一名實習生」的Jim Fan表示,DeepSeek-R1避免使用任何容易破解的學習獎勵模型。這使得模型產生了自我反思與探索行為的涌現。
此外,DeepSeek還是一款開源大模型,DeepSeek方面表示,「爲了進一步促進技術的開源和共享,我們決定允許用户利用模型輸出、通過模型蒸餾等方式訓練其他模型。」這意味着所有人都可以通過下載和微調該大模型從中獲益。國外的開發者論壇上甚至有人發起了「將DeepSeek模型裝進個人電腦」的挑戰。
值得注意的是,DeepSeek團隊由清華大學、北京大學應屆生和實習生主導,平均年齡不足26歲。一些關於模型的技術革新如MLA(多頭潛在注意力)架構的靈感源自一名博士生的「突發奇想」,而GRPO強化學習算法的突破則由3名實習生完成。創始人梁文鋒在2023年5月剛剛宣佈進場大模型領域時曾在接受媒體採訪稱,「招聘看能力,而不是看經驗。我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。」「不做前置崗位分工,而是自然分工,每個人可以隨時調用訓練集羣,只要幾個人都有興趣就可以開始一個項目。」這種「自下而上」的創新文化,與OpenAI早期如出一轍。
「我們正處在一個時間線上,一家非美國公司正在延續OpenAI的原始使命——真正開放、前沿的研究,賦能所有人。」Jim Fan表示。
面壁智能首席科學家劉知遠在朋友圈發文稱,「DeepSeek最近出圈,特別好地證明了我們的競爭優勢所在,就是通過有限資源的極致高效利用,實現以少勝多。2024年很多人來問我,中國跟美國的AI差距是擴大了還是縮小了,我説明顯縮小了,但能感受到大部分人還不太信服,現在DeepSeek等用實例讓大家看到了這點,非常贊。」
「AGI新技術還在加速演進,未來發展路徑還不明確。我們仍在追趕的階段,已經不是望塵莫及,但也只能説尚可望其項背,在別人已經探索出的路上跟隨快跑還是相對容易的。接下來我們要獨立面對一團未來迷霧,如何先人一步探出新路,是更加困難和挑戰的事,需要我們更加百倍投入、百倍努力。」劉知遠説。
記者聯繫郵箱:luoyidan@xjbnews.com
新京報貝殼財經記者 羅亦丹 編輯 王進雨 校對 柳寶慶