熱門資訊> 正文
2025-01-10 13:15
轉自:中國經營網
本報記者 曲忠芳 北京報道
「性價比」是商業社會中的制勝法寶之一,從消費電子到零售服務,從傳統制造業到互聯網經濟,高性價比在撬動市場、贏得用户方面屢試不爽。而如今,在「規模法則」(Scaling Law)主導下、「大力出奇跡」的大模型「燒錢」競賽中,來自中國杭州的大模型初創企業深度求索(DeepSeek)憑藉高性價比迅速出圈,被冠以「AI界的拼多多」稱號,吸引了國內外的廣泛關注。
截至1月10日,深度求索的最新大模型產品DeepSeek V3已發佈並開源半個月之久,如同「鮎魚」般給原本卡在「瓶頸」中的全球大模型市場注入了新的活力,《中國經營報》記者通過採訪業內人士,希望深度探討DeepSeek這條「鮎魚」將攪起市場的哪些變化。
「AI界的拼多多」驗證新思路?
DeepSeek被冠以「AI界的拼多多」稱號,主要是因為它極高的性價比,與拼多多在電商領域以高性價比著稱的模式相似。有趣的是,在DeepSeek V3生成的「自我介紹」中也使用了這一稱謂。
深度求索公司創立於2023年7月,是由中國量化私募公司「幻方量化」創始人梁文峰創立,2024年5月推出了第二代開源模型DeepSeek V2,到2024年12月26日又推出最新的開源模型DeepSeek V3。DeepSeek官網顯示,在多項基準測試——涵蓋英語、中文、數學、代碼等結果中,DeepSeek V3的成績超過了阿里的千問「Qwen2.5-72B」、Meta公司的Llama3.1-405B等開源模型,而且與OpenAI的GPT-4o、Anthropic公司的Claude3.5-Sonnet兩大閉源模型的表現也不相上下。更為重要的是,DeepSeek方面披露,其訓練成本僅為557.6萬美元和2000塊英偉達H800 GPU(圖形處理器)。
與之形成鮮明對比的是,據斯坦福大學HAI研究院發佈的《2024年人工智能指數報告》預估,OpenAI於2023年3月發佈的GPT-4模型訓練成本約在7800萬美元,同年發佈的谷歌Gemini Ultra的計算成本花費預估為1.91億美元。據Meta官方信息,2024年7月面世的開源模型Llama3.1-405B,訓練使用了1.6萬塊英偉達H100 GPU。超級富豪埃隆·馬斯克同樣曾在2024年7月宣佈建立孟菲斯超級AI集羣,使用10萬個英偉達 H100 GPU。另據美國媒體報道,GPT-4o的訓練成本約在1億美元,GPU數量預計在萬個級別;而Claude3.5-Sonnet的訓練成本或略低於1億美元,使用的GPU數量推測為數千至上萬個。從這些直觀的數據對比中不難看出,DeepSeek大幅度降低了模型訓練和推理成本。
關於DeepSeek如何實現高性價比的問題,本報記者諮詢了數名來自高校、企業的技術專家,他們做出了一些專業技術方面的解釋,涉及多頭潛在注意力機制(MLA架構)、稀疏專家混合模型(MoE)架構、FP8混合精度訓練、數據蒸餾與算法優化等。簡單來説,DeepSeek沒有「堆砌算力」,而是在算力限制下轉而探索效率優先的途徑。
「DeepSeek V3出現后,對於一些中小型團隊來説是有利的。」一位業內人士如是説道。近兩年來,規模法則被視為大模型發展的黃金定律,大模型的性能指數與模型參數、數據量、算力的增加正相關,因此全球範圍內呈現一場「大力出奇跡」的競賽。然而,隨着模型規模的不斷膨脹,規模法則的邊際效益逐漸遞減。一方面,超大規模模型的訓練成本高昂,算力需求呈幾何級數增長;另一方面,數據質量和模型架構的優化空間有限,導致性能提升逐漸趨緩。在這種趨勢下,大模型日漸成為巨頭與資本的遊戲,直到DeepSeek驗證了大模型性能提升的新思路。
深度科技研究院院長張孝榮指出,DeepSeek的「出圈」是對其在大模型技術上的突破和創新的認可,其通過優化算法和工程實踐,實現了高性能與低成本的平衡,為大模型的發展提供了新的思路和可能性,降低了大模型對先進算力的依賴程度。DeepSeek為整個行業的發展注入了活力,也對大模型的技術路徑和工程實踐產生了積極影響,推動了高效訓練、輕量化模型和工程優化。
價格戰或持續,AI加速普惠落地
「DeepSeek加速了AI和大數據技術的普及,有望使更多企業和開發者能夠接觸並應用這些技術。同時,也迫使競爭對手重新評估定價,這可能引發行業內的價格戰,推動整體價格下降,使更多企業能夠採用先進技術。」張孝榮説道。
事實上,早在DeepSeek V2發佈開源之時,深度求索這條「鮎魚」引發了2024年國產大模型的第一波降價熱潮,參與其中的包括智譜AI等大模型初創公司以及字節跳動、阿里巴巴、百度、騰訊等科技大廠。其中,智譜AI公司CEO張鵬此前接受本報記者採訪時迴應稱,降價並非出於市場壓力,而是因為技術的進步帶來了成本的降低,由此讓利給用户,同時也是爲了更好地拓展市場。深度求索創始人梁文峰在接受媒體記者採訪時也表示:「我們不是有意成為一條‘鮎魚’,只是不小心成了一條‘鮎魚’。我們只是按照自己的步調來做事,然后覈算成本定價。原則是不貼錢,也不賺取暴利,在成本之上稍微有點利潤。」
到了2024年年底,即在DeepSeek V3發佈前后,國產大模型在2024年的第二波降價潮再起。2024年12月中旬,字節跳動旗下豆包大模型率先更新價格,豆包視覺理解模型的輸入價格為0.003元/千tokens,相比行業平均價格降低了85%。按照這一價格,1元錢可以處理284張720ppi的圖片。抖音集團副總裁李亮稱,此次降價不是「價格戰」,而是豆包大模型在算法、軟件工程和硬件方案上進行了大量優化,有效降低了成本,目前的定價仍能保持可觀的毛利。而DeepSeek官方信息顯示,最新的DeepSeek V3輸入價格為0.5元/百萬tokens,輸出價格最低為8元/百萬tokens,遠低於Claude3.5-Sonnet、GPT-4o等。
在海外社交媒體中,DeepSeek的高性價比已引起了大模型競爭對手的高度關注,而在國內市場,記者從多位消息人士處瞭解到,國產大模型廠商也在密切關注DeepSeek的訓練方案,儘管還沒有公開的動作,但一個行業性的共識在於,算力堆砌或許仍能「大力出奇跡」,但同時在數據質量、訓練模式、架構優化方面仍有可挖掘的創新空間,大模型正在加速朝着普惠落地的方向前進。
謙詢智庫創始合夥人龔斌指出,其他大模型廠商或許會通過技術追趕和資源投入快速跟進,不排除複製甚至超越DeepSeek高性價比優勢的可能性,DeepSeek能否持續建立起優勢壁壘還有待觀瞻。另有業內人士提到,DeepSeek開發過程中利用已有的模型進行訓練,也存在一些漏洞。
除此之外,盤古智庫學術委員、DCCI-未來智庫與FutureLabs-未來實驗室首席專家胡延平發文提醒道,儘管DeepSeek V3在效率和性能上表現出色,但「不宜過高評價」其創新性。在他看來,該模型的成功主要依賴於已有技術的有效整合,如合成數據、知識蒸餾等,而缺乏底層原理的創新,呈現的是「又一次是我們一直最擅長的性價比」。「DeepSeek V3能不能持續有流量不太好説。」
關於AI大模型未來價格的進一步下降、商業化應用,以及深度求索公司后續的發展,本報記者將持續關注報道。
(編輯:吳清 審覈:李正豪 校對:顏京寧)