繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

中金:算力,后GPT-5時代的「硬通貨」

2025-08-13 10:21

本文來自格隆匯專欄:中金研究 作者:成喬升 賈順鶴等

在「DeepSeek創新熱」過后,中金研究看到全球各大模型廠商在2Q25正以更快的節奏將更強能力的產品推向市場;用户側,token的加速消耗也推動着算力需求持續提升。3Q25,隨着備受關注的GPT-5問世,中金研究認為全球領先水平大模型有望進入密集發佈期,進而撬動市場情緒步入新的焦點時刻,中金研究再次重申對算力產業鏈相關投資機會的看好。

摘要

北美模型更新+推理應用實現初步閉環,算力進入「二次搶籌」階段,繼續看好海外算力鏈投資。在Google/Anthropic等廠商帶來模型小幅更新后,北京時間8月8日,OpenAI發佈了其最新版本領先大模型GPT-5,除智力水平、編程能力等基礎指標提升外,在資源調度、幻覺消除、輸入上下文窗口長度、寫作水平等領域也有明顯優化。更重要的是,GPT-5大幅降低了單位算力成本,API調用價格與Gemini 2.5 Pro實現對標,中金研究認為這也是當下OpenAI這類依賴外部資本的大模型企業的必然選擇,是其算力需求持續的必要條件。OpenAI CEO在X表示,公司有望於5個月內使其算力資源翻倍。在推理應用端,以Google為代表的各大廠商tokens消耗量正呈高速增長態勢,通過當前「免費拉量、付費突圍」的市場策略,尋求AI技術普惠性與商業可持續性之間的階段性平衡。中金研究看到,大模型行業領軍者正通過技術迭代及客户粘性,使得追趕者不得不進行「算力搶籌」來避免被時代淘汰。中金研究認為北美模型更新迭代+推理應用落地已在當下模型代際上實現初步閉環,算力在后GPT-5時代依然為「硬通貨」,中金研究繼續看好海外算力產業鏈。

國內大模型加速追趕,看好開源SOTA模型更新后國產算力市場表現。國內業者雖在模型端與海外能力依然存在一定差距,但中金研究看到2025年以來字節、快手、Kimi、Minimax等多家企業接連發布模型更新,並推廣應用部署,算力消耗穩中有升,特別是在多模態領域實現了能力突破和商業落地,為中長期算力需求增長提供多元化動能。以內外部使用的合計口徑來看,字節tokens月消耗量已經可媲美Google。供給側來看,中金研究也看到國產算力芯片企業產品正在從單芯片走向系統級方案,來支持國內大模型迭代及應用部署。中金研究認為,若DS等開源SOTA模型在3Q25迎來更新,國內AI產業鏈飛輪有望重啟,二級市場投資情緒也有望得到提振。

風險

生成式AI模型創新不及預期,生成式AI商業應用落地不及預期,AI算力硬件技術迭代不及預期,貿易摩擦風險。

正文


GPT-5發佈,AI大模型繼續行駛在發展快車道上


中金研究看到,在「DeepSeek的創新熱」過后,全球大模型行業持續發展,模型迭代速度並未放緩,反而呈現出多點爆發的趨勢,這也持續推動着算力需求向更高天花板邁進。

8月6日凌晨,北美多家頭部大模型公司幾乎在同一時間段內發佈了新一輪的模型更新。谷歌DeepMind推出了新一代通用世界模型Genie 3,它能以每秒20-24幀速度實時生成720p畫面,且可模擬出長達數分鍾內容連貫的可交互動態世界,能模擬物理世界、自然世界,創建動畫奇幻世界以及探索歷史場景等,其問世標誌着世界模擬AI邁向新高度,同時也推高了對算力的需求。OpenAI發佈了首個開源大模型系列gpt-oss,包含gpt-oss-120b(1170億參數,適用於大規模、高性能推理任務)和gpt-oss-20b(210億參數,專為低延迟和本地化應用設計),這兩款模型的訓練與運行同樣需要大量算力支撐,無論是前期訓練時的海量數據處理,還是后期在不同設備上推理時的即時運算。Anthropic公司更新了Claude Opus 4.1版本,相較於之前的Claude 4系列,在編碼、推理和執行指令能力上有所改進,如在SWE-bench Verified上的準確率提升等,中金研究認為模型性能的提升背后離不開算力提供保障。

圖表1:Genie 3性能表現

資料來源:Google DeepMind官網,中金公司研究部

圖表2:gpt-oss競賽編程表現

資料來源:OpenAI官網,中金公司研究部

圖表3:Claude Opus 4.1性能表現

資料來源:Anthropic官網,中金公司研究部

8月8日凌晨,OpenAI更是發佈了備受期待的GPT-5,中金研究認為從算力視角分析這一新模型不乏亮點:Token使用效率顯著提升、定價體系大幅下降、上下文能力躍升至400K。效率上的「省」、價格上的「低」與能力上的「強」,一方面壓低了單次調用成本,另一方面以更長上下文與更廣用户覆蓋提升整體調用密度與瞬時資源佔用,由此可明顯推高對算力的實際需求,形成「降本—擴容—增需」的良性循環。

具體來看,首先中金研究認為GPT-5大大提升了Token使用效率,能夠以更少的Token消耗獲得超過前代模型的效果。這源於三方面升級:其一,統一系統與自適應推理路由。GPT-5是一個「統一系統」,默認用一個更高效的聊天模型,只有當問題真的複雜時才切到「Thinking」推理模型,能按任務複雜度自動決定是否啟用深度推理,避免對簡單問題的宂長思考與輸出;官方評估顯示,在保持或提升效果的同時,GPT-5 Thinking相比o3在多類任務上輸出Token降低50–80%。其二,推理鏈收斂與工具調用更高效。根據公司官方評估,在真實工程評測(如SWE-bench Verified)中,GPT-5在高推理設置下較o3輸出Token少約22%、工具調用少約45%,意味着它在規劃—執行—校驗的鏈條上更直、更穩,減少了中間步驟與交互開銷,從源頭壓縮了生成長度。其三,可控生成與最小推理。GPT-5新增verbosity(控制長短)與reasoning effort(推理耗時)等控制項,使開發者能把「文字密度」和「思考深度」精確撥檔到任務所需,避免過度解釋,在不犧牲正確性的前提下顯著降低有效Token投入。同時,中金研究認為GPT-5對指令遵循與多工具協作的魯棒性更強,減少澄清與返工回合,從而進一步降低「每完成一項任務的總Token」,這種從底層機制到應用接口的系統優化,不僅減少了單次任務的Token消耗,也降低了整體算力成本,推動算力的「良性飛輪」前進,用效率提升激發未來更大的需求。

圖表4:GPT-5在軟件編程上準確率與輸出Token效率大幅提升

資料來源:OpenAI官網,中金公司研究部

其次,GPT‑5的定價策略實現了顯著降本。開發者使用GPT-5 API時,每百萬個輸入Token收費僅為1.25 美元,輸出部分為10 美元,整體遠低於前代GPT-4.1模型;其中GPT‑5 mini版本更低,僅需0.25 美元輸入和 2 美元輸出,GPT‑5 nano更低至0.05 美元輸入和0.40 美元輸出。中金研究看到,GPT-5的定價結構甚至比一直被視為「低價典範」的Gemini 2.5 Pro更具競爭力,僅在輸入端相當而輸出更便宜,更比Anthropic同類產品低了15倍之多。另一方面,C端用户現在可有條件地免費使用GPT‑5。普通用户可以直接使用GPT‑5模式,使用時間保持在每天「幾小時」級別,當用量達到上限后系統會自動切換到mini版本,確保體驗不中斷;Plus訂閲(約$20/月)擁有更高的使用額度,而Pro訂閲(約$200/月)則享有無限訪問GPT‑5 Pro與GPT‑5 Thinking模式。從策略層面看,中金研究認為這樣的定價和產品分層機制不僅降低了使用門檻,也讓算力「降本增效」的趨勢更加明確,對生成式AI的高頻日常使用形成良性推動,有望持續刺激用户需求與使用廣度。

圖表5:GPT-5 API定價(美元,每百萬Token)

資料來源:各公司官網,中金公司研究部

另一個關鍵進步在於上下文能力的躍升。GPT-5版本目前支持的上下文擴展到了400K Tokens,相較GPT-4o的128K放大約3.1倍,相較o3的200K也提升到2倍;並且在長上下文檢索與跨文檔內容對齊上更穩健、命中率更高。這意味着單次會話可直接容納大部頭報告、代碼庫與多源資料,減少拆分與反覆往返帶來的「額外對話」與無效生成;同時,400K的窗口也對顯存與帶寬提出更高的瞬時需求。總體來看,一方面,更長的可見範圍會帶來超過128K的即時算力需求,另一方面,更強的應用承載力又會反向提升應用能力,激發新的應用場景(如長文檔回答、跨工具流水線),從而進一步放大對算力的需求。

綜上,中金研究看到,近期的模型更新背后一個共同的趨勢和邏輯是:模型能力持續增強的同時,Token的使用效率越來越高,同時對算力的需求持續走高,不僅是傳統的雲側集羣推理能力,越來越多的場景開始向本地和端側算力遷移,例如本地部署的OSS模型對消費級GPU也提出了性能要求,Genie 3這種需要端側實時響應的模型也進一步推高了設備端的能效與算力門檻。可以説,模型迭代本身就是當前大模型行業算力需求增長的主要源頭之一。無論是訓練規模的擴大,還是推理複雜度的提升,亦或是多模態、多任務適配的需求,都在持續推高算力消耗。

圖表6:2022年以來AI模型更新時間線

資料來源:公司官網,中金公司研究部

從上圖AI模型更新時間線圖可見,2022年以來,國內外眾多廠商如OpenAI、Anthropic、谷歌、國內如MiniMax、Deepseek、字節等,不斷推出新模型或更新迭代現有模型,2025年上半年全球範圍內主流廠商發佈的大模型數量明顯增加,且呈現出更為密集的發佈節奏。數據顯示,2025 年上半年共有9家主要公司更新模型,總發布模型數量達21個,同比2024年上半年分別增長了28.6% 和10.5%。不僅如此,從模型類型來看,也從早期的語言模型單點能力演進為多模態、多任務、超長上下文等全面突破。例如OpenAI的GPT-4.5、Claude4.1、Gemini2.5、Grok4、Qwen3-235B等均體現出能力邊界的進一步拓展。這進一步反映出大模型行業持續發展、迭代加速的現狀,密集更新的模型正成為推動算力需求持續走高核心因素。

海外模型的持續更新對算力而言是持續的利好因素。以OpenAI的GPT-5來看,中金研究認為其整體能力雖低於部分市場預期,然而本輪更像是在資本與單位經濟的約束下的一次「效率優先」、成本導向的選擇,而非前沿技術邊界突破的嘗試。OpenAI主要依賴外部資本,資金消耗快,若無法形成合適的價格—性能組合,產品難以被大規模負擔並保持可持續。基於此,中金研究認為GPT-5此次更新轉變的目標是降低OpenAI的運營成本,而非全力推動前沿技術邊界的拓展。為實現降本,GPT-5此次更新將重點放在追求規模效應、降低延迟時間以及實現更經濟便宜的推理成本上,讓自身變得更易於被用户獲取,為在全球範圍內的推廣創造了有利條件。隨着產品的廣泛推廣,吸引了更為龐大且多樣化的用户羣體,進而有力推動了產品的發展。而產品的發展壯大,必然會對算力產生更多的需求,從這個角度看,GPT-5的更新對其持續消耗算力是有益的。8月11日,OpenAI CEO Sam Altman也在X平臺表示,公司會把算力側重分配給推理側(付費版使用量提升/優先滿足API需求/免費版服務質量提升),且擬在5個月維度內將計算資源擴大一倍,這一舉措也印證了中金研究的上述觀點。

與此同時,其他競爭對手可能選取的不同策略也有望對算力市場需求產生正面影響。例如谷歌、Meta等企業,憑藉其母公司的萬億級市值規模與雄厚資源,在資金投入與研發支持上幾乎無后顧之憂,能夠更從容地推進模型的更新與優化;Anthropic則憑藉與眾多企業的緊密對接,具備更強的盈利能力與商業可持續性,這為其持續投入代碼能力較強的模型研發、推動技術迭代提供了堅實基礎。中金研究看到,無論是面臨資金約束而尋求商業化或規模化突破的參與者,還是具備穩定資源支撐的頭部企業,其對模型迭代升級不同方向的持續推動,都在共同提升對算力的需求。

圖表7:不同廠商商業策略均對算力需求構成正向拉動

資料來源:各公司官網,中金公司研究部


全球大模型Token消耗快速攀升,AI應用密度全面提升


海外巨頭Token調用量快速增長:谷歌AI Overview領跑

2025年以來,谷歌、微軟與字節跳動的Token消耗量均呈顯著上升趨勢。

圖表8:2024年12月-2025年7月微軟、字節、谷歌Token消耗量

資料來源:微軟電話會,2025火山引擎原動力大會,Google I/O大會,中金公司研究部

中金研究認為,谷歌Token消耗量在2025年上半年顯著攀升,主要受到兩方面因素驅動:

首先,中金研究認為AI Overview的快速擴展大幅提升了Token調用頻率,是驅動谷歌2025年Token消耗量顯著增長的主要原因。AI Overview是谷歌於2024年5月首次推出的搜索增強功能,該功能在搜索結果頁面頂部自動生成簡潔明瞭的AI摘要,無需用户主動進入對話界面,直接基於搜索關鍵詞觸發,這意味着AI系統在用户搜索時會頻繁地在頁面上自動生成大量自然語言摘要,而這些生成過程大多是在用户無感知的情況下由系統后臺完成,因此Token的消耗主要來源於系統自動生成內容本身,而不是用户主動提問或點擊所觸發的交互行為。這種靜態、默認觸發的高覆蓋率摘要機制,疊加谷歌每年約5萬億次的搜索請求體量,使得AI Overview成為谷歌Token調用量增長的關鍵推手。此外,2025年5月谷歌推出AI Mode,相比AI Overview進一步引入多輪搜索整合與多問題預測,推高了搜索AI整體的Token密度。整體來看,AI Overview的產品形態、觸發機制及部署速度,在功能側構成谷歌Token消耗量快速增長的重要基礎。

與此同時,中金研究認為谷歌在用户側的明顯領先進一步放大了其Token消耗總量,並拉開與其他廠商的差距。截至2025年3月,AI Overview月活躍用户已達15億,而Gemini的月活用户為3.5億,OpenAI旗下ChatGPT的月活躍用户約為6億。值得注意的是,儘管Gemini作為Chatbot類應用的月活僅為ChatGPT的一半左右,谷歌整體的Token調用量卻已達到微軟的5–6倍,表明真正拉開雙方差距的核心因素在於AI Overview這一搜索類功能的高頻使用。相比之下,谷歌AI產品以免費、默認觸發、輕交互為主要特點,大幅降低了用户使用門檻,在全球範圍內實現了更快的滲透速度和Token調用量的集中快速增長。綜合來看,谷歌依託其龐大的搜索用户體量、高頻觸發的AI Overview功能,以及輕便易用的交互入口設計,使得其Token調用結構在用户數與單位用户調用密度兩個維度上同時擴張,從而支撐了其成為2025年Token消耗增長速度最快的頭部廠商。

Token消耗密度持續抬升,付費場景有望率先打破商業閉環

當下,Token消耗量快速上升的驅動因素愈發多元複雜,相較於僅以Chatbot為主的階段,算力需求快速擴張。

圖表9:Token增加消耗的主要方式

資料來源:中金公司研究部

從當前AI應用市場的供需格局來看,免費模式仍是主要的用户使用方式,其用户規模和增長速度明顯快於付費模式。

相比之下,那些已經實現變現的AI產品,通常具備明顯的差異化能力,能夠精準解決用户的高價值需求。從功能層面看,付費產品往往在專業性、可靠性與體驗完整性上形成壁壘:例如,ChatGPT-Agent與Claude-4等付費產品,憑藉更強的推理能力、更低的錯誤率以及更完整的功能體驗,構築起一定的專業壁壘,其輸出內容的錯誤率明顯低於免費模型;從技術支撐看,付費產品依託更優的算力調度與緩存機制(如火山引擎的AI雲原生方案降低20%推理成本[1]),能夠在高頻交互場景中保持低延迟與高穩定性,這是免費產品難以企及的服務水準。

總體來看,中金研究認為當前「免費拉量、付費突圍」的市場格局,反映出AI技術普惠性與商業可持續性之間的階段性平衡。中金研究認為,隨着模型能力的持續提升,如推理更準確、多模態交互更流暢、成本控制更高效,用户對高質量服務的付費意願將逐步增強。屆時,真正能為用户創造效率提升或決策優化價值的產品,將有望實現「價值定價」,構建更清晰的商業閉環。

國產模型不甘示弱,靜待流量王者更新

在全球範圍內,雖然中國廠商的大模型創新能力相比北美可能暫時稍顯落后,但整體模型水平仍在持續推進。隨着模型不斷迭代更新,其對雲側和端側算力的要求也會越來越高,整個行業也將在算力與模型創新的相互促進中持續發展。中金研究認為,后續若DeepSeek等流量模型發佈更新,有望促進上述正循環發展。

Kimi K2作為一款萬億參數的MoE架構模型,較之前版本在架構、能力和功能上均有明顯更新,整體性能實現大幅躍升。其採用總參數1T、激活參數32B的設計,通過增加專家數量提升知識廣度,減少注意力頭數量增強特徵學習效率,配合MuonClip優化器實現了15.5T Token預訓練的穩定進行,在代碼生成(如構建3D HTML場景、期貨交易系統)、數學推理等基準測試中取得開源模型SOTA成績,基礎能力明顯增強。按官方定價,每百萬輸入Token 4元、輸出Token16元,未來隨着開發者把更長文檔、更復雜鏈式任務交由K2處理,整體Token消耗規模還將進一步放大。

圖表10:Kimi K2 損失與Token消耗量關係

資料來源:Kimi K2官網,中金公司研究部

MiniMax較之前版本也在長文本、視頻生成與智能體三大賽道均完成 SOTA 級更新,同時也帶來了更高的算力消耗。MiniMax更新的三款模型通過「擴大容量/分辨率+降低單價」策略,實則增加了Token消耗。M1將輸入上限提至100萬Token,用户可一次性提交大量內容,單任務Token數成十倍、百倍增長;Hailuo 02提升分辨率且同價,使用户傾向用更高清或多次重生成,單條視頻Token消耗顯著上升;Agent方案可緩存整個知識庫,每步將消耗大量Token。三者將共同拉高MiniMax總Token消耗量。

快手可靈AI最近也通過多維度技術升級實現了能力的全面躍升。5月快手推出的可靈2.1系列模型。儘管官方把定價(靈感值)維持在與1.6版本同一水平,但模型升級帶來的高階功能和創作自由度可能引導用户更頻繁使用高規格模式,從而增加實際靈感值的消耗總量。

圖表11:Qwen-Image生成的圖像

資料來源:Qwen-Image GitHub,中金公司研究部

從國內AI模型的升級態勢來看,近期各大模型的更新均以獨特方式拓展着AI邊界,這直接引發了Token消耗量的急劇上揚,與早期僅存在Chatbot的階段相比,呈現出指數級增長趨勢。

圖表12:各個AI模型APP周度日均活躍用户數

資料來源:Similar Web,Questmobile,中金公司研究部

在字節跳動方面,火山引擎公佈的數據顯示,豆包大模型的日均Token使用量已達到約16.4萬億。2025年第一季度,其在國內公有云大模型調用量的市場份額約為46.4%,位居行業第一。

以Kimi為例,2025年2月其App MAU約2,622萬。

MiniMax旗下海外社交AI產品Talkie在2024年10月的月活達 2062萬,對應的國內版產品「星野」月活為512萬,二者合計月活2574萬,其主打娛樂對話場景。

快手可靈的Token需求更多由「多模態鏈路深度」驅動:官方數據顯示,其全球用户規模已突破約2200萬,上線第10個月的年度經常性收入(ARR)突破1億美元,且4-5月單月付費均超過1億元人民幣。

通義千問的App端公開「絕對MAU/DAU」較少;第三方監測曾指出其雖位列「智能體數量Top3」,但流量多在500萬以下,據此以「數百萬級MAU」估算,同樣的交互口徑下月度Token可達數十億級,且隨着其在「文本—圖像/視頻」多模態方向擴展(如Qwen-Image、VLo等),每次任務的提示詞與迭代輪次也會進一步拉長。

綜合而言,中金研究認為,隨着MAU與人均交互次數的「雙增長」,疊加深度推理與多模態鏈路的拓展,Token處理量的快速增長直接驅動了對更大內存容量與更復雜調度算法的需求。而在視頻生成等新場景中,算力需求也快速攀升。隨着模型能力的持續進化,未來Token消耗與算力需求將持續攀升,且算力瓶頸正從解碼能力受限向帶寬與互聯能力受限發生結構性遷移。


國產算力聚焦從芯片到系統的全維度支撐,把握行業高成長機會


聚焦國內供給側,中金研究看到中國 AI 芯片企業紛紛亮相2025世界人工智能大會(WAIC 2025)。中金研究認為,當下國產算力廠商不再侷限於單一芯片的性能迭代,而是聚焦於互連技術創新、超節點架構構建與規模化系統方案輸出,通過協同構建高效算力集羣,為 AI 大模型的訓練與推理提供從芯片到系統的全維度支撐。面對不斷成長的市場天花板,中金研究認為國產算力有望通過產品實力不斷提升繼續攫取市場份額。

風險提示

生成式AI模型創新不及預期。本次OpenAI發佈的GPT-5,除智力水平、編程能力等基礎指標提升外,在Agent調度、幻覺消除、輸入上下文窗口長度、寫作水平等領域GPT-5也有明顯優化,大幅降低API調用成本。如果生成式AI模型技術創新停滯,將直接影響技術迭代與產業升級進程。

生成式AI商業應用落地不及預期。AI大模型訓練成本與推理成本較高,當前各大廠紛紛加大資本開支投入以支撐對AI大模型及應用的研究。但是如果生成式AI模型技術創新不及預期,無法滿足客户的差異化、高價值需求,當前的AI支出將無法變現,影響下游客户進一步投入的意願。

AI算力硬件技術迭代不及預期。GPU的算力水平以及網絡通信的傳輸速率均有可能成為AI大模型訓練與推理的瓶頸,如果GPU算力及網絡通信的瓶頸持續擴大,或會拖慢生成式AI進化迭代的速度。

貿易摩擦風險。近年來國際貿易摩擦風險升級,如果未來出現關税政策的不利變化,可能導致終端客户需求波動,不利於出口業務佔比較高的企業。


注:本文摘自中金研究於2025年8月13日已經發布的《AI進化論(13):算力,后GPT-5時代的「硬通貨」》,分析師:成喬升 S0080521060004;賈順鶴 S0080522060002;彭虎 S0080521020001;於新彥 S0080524080007 ;楊曉宇 S0080523090004 ;臧若晨 S0080522070018 ;李詩雯 S0080521070008 ;温晗靜 S0080521070003 

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。