繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

英偉達市值蒸發創紀錄,DeepSeek掀起AI算力革命意味着什麼?|甲子光年

2025-01-28 01:11

專題:DeepSeek為何能震動全球AI圈

  來源:甲子光年

  作者|王博 王藝

  AI領域的Killer App(殺手級應用)出現了。

  國產DeepSeek-R1模型發佈不到一周,就讓發佈不到12天的DeepSeek App衝到了蘋果APP store國區和美區免費總榜的第一名。

  DeepSeek也引爆了海內外的社交網站,相比DeepSeek-R1剛發佈時的大量技術分析和圈內討論,這次更多是用户的實際使用體驗——DeepSeek破圈了。

  遊戲科學創始人、CEO,《黑神話:悟空》製作人馮驥直呼:「DeepSeek,可能是個國運級別的科技成果。」

  微軟CEO薩提亞·納德拉(Satya Nadella)在X上發帖稱:「隨着人工智能越來越高效,越來越容易獲得,我們將看到它的使用率急劇上升,成為我們用之不盡的商品。」而網友則直接給他留言:「這要歸功於DeepSeek。」

  我們跟很多人聊過Killer App,也設想過Killer App產生的條件和場景,從第一性原理來説,Killer App的出現離不開模型能力的爆發。

  但模型能力爆發后,如果普通人用不到也很難稱之為Killer App,比如需要付費纔可使用接入了OpenAI o1模型的ChatGPT。DeepSeek-R1對標的就是OpenAI o1,而DeepSeek-R1開源、免費。

  DeepSeek的爆火告訴所有人,一個會思考、夠聰明、易使用且免費的AI應用就是Killer App。

  在甲辰龍年的末尾,DeepSeek給AI行業添上了畫龍點睛的一筆。

  但英偉達CEO黃仁勛的年怕是過不好了,截至美東時間1月27日上午11點,英偉達股票一度下挫超過13%,市值蒸發約4650億美元,創了美股市值蒸發紀錄。

  DeepSeek的技術特點‘甲子光年’在《DeepSeek纔是「真正的OpenAI」?》一文中有過分析。其實在性能和開源之外,DeepSeek更讓硅谷震驚的,是其R1模型通過重新設計訓練流程,在保持高準確性的同時顯著降低了內存佔用和計算開銷,僅用了少量的低端GPU(以A100為主)就實現了高端GPU(以H100為代表)纔有的性能,原來以算力為核心邏輯驅動的大模型行業開闢了新的道路。

  硅谷科技圈反應過來了,X上不少網友驚呼:DeepSeek是在戳美股泡沫啊,是在革英偉達的命啊!

  一位名為Kakashiii網友發表暴論:「英偉達的一切都將開始瓦解。」目前,該帖文閲讀量已超過130萬次。

  備註:Magnificent 7指的是Apple、Amazon、Microsoft、Alphabet、Meta、Tesla、NVIDIA這七大巨頭,圖片來源:@kakashiii111 X賬號

  一旦大模型企業不再囤卡,不再搞算力的軍備競賽,英偉達的「壁壘」還會牢固嗎?

  1.進擊的DeepSeek

  kakashiii的話並不是危言聳聽。

  一直以來,Scaling Law(規模法則)都是大模型發展的核心定律,大廠之間算力的軍備競賽也從未停止。微軟、谷歌、Meta、亞馬遜等大廠分別擁有幾十到上百萬塊H100,馬斯克也多次表示算力決定生死,為旗下的xAI搭建了10萬卡的訓練集羣。

  但是DeepSeek展現了「神祕的東方力量」,其在最近的一個月內接連發布了DeepSeek-V3基座模型和DeepSeek-R1系列推理模型。

  其中,DeepSeek-V3僅用2048塊英偉達H800 GPU和557.6萬美元的成本,便完成了6710億參數模型的訓練,而同等規模的GPT-4訓練成本高達10億美元;

  DeepSeek-R1則通過重新設計訓練流程、以「少量SFT數據+多輪強化學習」的辦法,在提高了模型準確性的同時,也顯著降低了內存佔用和計算開銷——百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出tokens 16元,大約是 OpenAI o1運行成本的三十分之一。

  可以説,算法結構的優化,讓DeepSeek實現了完全的「降本增效」,直接對AI行業「堆砌算力」的既有模式發起了衝擊。

  ‘甲子光年’分析,這一技術路徑的革新將帶來兩大影響。

  AI初創企業生存模式將會轉變。一些依賴高價GPU集羣的AI企業可能因成本劣勢破產,導致二手市場GPU供給激增,中小AI企業將會更傾向去購買更便宜的低端GPU。

  硬件需求也將迎來結構性轉移。從去年開始,以訓練為主導的算力需求就在向推理側轉移,而今后,這種趨勢還將繼續,大量中小AI企業將不再訓練基座模型,轉而投向DeepSeek這樣的開源模型的懷抱。英偉達在訓練市場的地位也將面臨價值重估。

  2.躍躍欲試的AMD

  DeepSeek的技術突破意外成為AMD挑戰英偉達的「槓桿」。

  1月25日,AMD宣佈在其Instinct MI300X GPU上集成了全新的DeepSeek-V3模型,並與SGLang集成。這意味着AMD將聯合DeepSeek共建ROCm開源框架,通過優化推理性能和英偉達爭奪市場份額。

  ROCm(Radeon Open Compute Platform)是AMD開發的一個開源軟件平臺,旨在為高性能計算(HPC)、人工智能(AI)和機器學習(ML)提供支持。它允許開發者在AMD的GPU上運行並行計算任務,類似於NVIDIA的CUDA平臺。

  此前,美國初創雲基礎設施企業TensorWave就與AMD的合作,通過利用AMD的硬件和ROCm軟件平臺,為AI用户提供更為便捷和高效的計算解決方案。

  TensorWave聯合創始人兼CEO達里克·霍頓(Darrick Horton)去年10月告訴科技媒體TechCrunch,AMD MI300X的價格要比英偉達H100便宜得多,而且基準測試顯示,MI300X在運行(但不訓練)AI模型時性能超越了H100,特別是在Llama 2這樣的文本生成模型上。

  就在AMD宣佈在其Instinct MI300X GPU上集成了全新的DeepSeek-V3模型后,TensorWave官方X賬號就轉發了AMD人工智能和嵌入式營銷負責人布萊恩·馬登(Bryan Madden)的評論「如果您想訪問MI300X集羣,請與我們的朋友TensorWave聯繫」。

  DeepSeek的出現,進一步削弱了硬件綁定效應,再加上DeepSeek以MIT協議開源模型權重,允許開發者自由修改,昇騰、寒武紀、摩爾線程等其他芯片廠商也將有機會將DeepSeek集成到自己的平臺中,這些都對英偉達CUDA生態造成了潛在威脅。

  更值得一提的是,DeepSeek採取的開源策略正在加速生態分化。通過發佈基於Qwen、Llama開源模型的六個蒸餾「小模型」,DeepSeek支持在非CUDA的環境中進行模型微調;HuggingFace還發起了Open-R1項目,進一步推動了技術擴散。

  3.危與機並存的英偉達

  Kakashiii發表的「英偉達的一切都將開始瓦解」的觀點也遭到了不少人的質疑。

  亞馬遜雲科技零售和消費類電子產品生成式人工智能主管邁克爾·康納(Michael Connor)就評論道:「強大的顯卡在訓練和推理中都是必需的,即使使用 DeepSeek。」

  一直比較看好英偉達的花旗分析師阿提夫·馬利克(Atif Malik)認為:「雖然 DeepSeek的成就可能是開創性的,但我們質疑的是,如果沒有使用先進的GPU對其進行微調或通過蒸餾技術構建最終模型所基於的底層LLMs,DeepSeek的成就就不可能實現。」

  馬利克同時分析,雖然美國公司在最先進AI模型方面的主導地位可能會受到挑戰,但美國獲得更先進芯片的機會是一個優勢,因此他預計領先的AI企業不會放棄更先進的GPU。

  「因為這些GPU在規模上能提供更具吸引力的$/TFLOPs(一個衡量計算性能性價比的指標) 。」馬利克説,「我們認為,星際之門(Stargate)等最近宣佈的AI資本支出就是對先進芯片需求的迴應。」

  Panoptes Group前創始人、人工智能研究員、現牛津大學在讀博士JundeWu就表示,很多人擔心DeepSeek的低成本訓練會衝擊顯卡市場,但他認為是利好。

  他的觀點之一是,很多人認為模仿DeepSeek就不需要那麼多卡了,但其實DeepSeek-R1的低成本訓練方法也是可以Scaling的。在DeepSeek出來之前,其他大模型用PRM(Process Reward Model)的時候,由於需要額外的卡訓練PRM模型來監督推理過程,已經觀察到Scaling Law失效、邊際效應遞減了,但是DeepSeek的出現證明了多一張卡、性能就成正比提升,這對顯卡市場顯然是一種利好。

  他的觀點之二是,很多人認為DeepSeek做的是推理,但其實DeepSeek-R1是通過后訓練,來訓練模型有更強的推理能力,這種訓練和預訓練對顯卡的需求沒有本質區別。

  因此,JundeWu認為,未來對顯卡市場和Scaling Law最大的威脅不是模型,而是數據。

  還有業內人士分析,雖然訓練消耗的算力較少,但是由於智能的持續升級和相應的用户需求上升,推理模型也會需要更多的算力;另外,DeepSeek的技術將導致模型能力走向分化,只有那些擁有高端GPU的人才有能力創建更復雜的模型。

  除了社交網絡上的討論,在更為私密和專業的小圈子里,對於此次DeepSeek-R1的爆紅和其對英偉達生態的影響的討論則更為理性。

  ‘甲子光年’獲得的一份來自「拾象」的《DeepSeek-R1閉門學習討論》文件紀要中,就有參會者表示,DeepSeek-R1只是站在巨人的肩膀上取得的成功,但探索大模型最前沿的技術需要的時間和人力成本還要高很多,R1的出現並不代表以后的訓練成本會同時降低。

  ‘甲子光年’分析,短期內英偉達仍握有三大優勢

高端芯片的統治力:預計2025年英偉達從Blackwell架構產品線獲得的收入有可能會超過市場的預期,超過Hopper架構創造的記錄,最多可達到2100億美元的水平,而且大型雲廠商的訂單已覆蓋未來數年產能。

CUDA生態壁壘:90%的AI開發者依賴CUDA平臺,遷移成本極高。

供應鏈控制:臺積電CoWoS(一種先進的半導體封裝技術)產能優先分配英偉達,2025年預計英偉達佔據CoWoS總需求的63%,表明其在採用CoWoS技術方面的領導地位。

  DeepSeek掀起的AI算力革命,並不是要替代英偉達,而是迫使行業重新思考算力投入的性價比。

  模型進化帶來的算力革命,這其中有着太多不確定,但唯一確定的是:AI算力的「軍備競賽」邏輯,正在被中國公司的算法創新改寫。

  (封面圖來源:電影《星際穿越》)

責任編輯:丁文武

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。