繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

從芯到雲,算力為何全線短缺?

2026-05-26 09:03

一場喧囂而深刻的產業變局,正在算力供應鏈全鏈發生。

2026年,一場覆蓋芯片、雲、服務器、數據中心零部件的全產業鏈算力短缺席捲全球。算力稀缺與全線漲價,貫穿整個AI產業。

全球資本市場算力相關公司迎來了高點。納斯達克科技指數不斷攀升,英偉達市值仍在節節走高,亞馬遜、微軟、谷歌的雲業務營收、利潤來到歷史高點。OpenAI、Anthropic兩大AI創業公司估值已接近萬億美元。

中國市場也出現了類似變化。納斯達克中國金龍指數連續走高,A股算力板塊價值重估。海光信息、寒武紀、摩爾線程等國產AI芯片公司的股價近一年長期位於高點,工業富聯等服務器公司、中際旭創等算力周邊零部件關鍵企業的市值紛紛連續創下新高,算力細分賽道的企業市值不斷上漲。

資本市場與產業市場正在形成共振。無論是投資機構還是算力產業鏈內部,越來越多的人認為:這一輪算力短缺,並非傳統意義上的周期性供需失衡,它更像是新一輪產業變革到來前的信號。

過去20年,整個科技產業的共識是,算力只會越來越便宜。

半導體「摩爾定律」、雲計算「規模效應」共同促成了這個趨勢——芯片晶體管密度持續提升,單位計算成本不斷下降。雲讓算力被更多用户彈性調度,提升利用率並攤薄成本。

2026年,這個邏輯似乎暫時失效了。

因為全球算力產業鏈,開始進入全線短缺的狀態——從服務器的GPU(圖形處理器)、CPU(中央處理器)、HBM(高帶寬內存),再到數據中心的光模塊、銅模塊、高速交換機、電力與液冷等相關資源,乃至雲計算和Token資源,幾乎都供不應求。

蝴蝶效應開始顯現:芯片、服務器在漲價,雲在漲價,手機、PC由於承擔了芯片與存儲成本壓力也在漲價,甚至字節跳動旗下的豆包App這類免費AI產品,也開始計劃收費。

供需格局的反轉是本輪短缺與漲價的核心根源。

需求端,Agent(智能體)這種AI應用在爆發。AI從聊天走向工作,並大規模進入真實生產環境。每次問答、執行任務、代碼生成和Agent調用,都在用算力推理並消耗Token(詞元)。基於這個趨勢,全球科技與算力領域的公司開啟了過去十多年最大規模的一輪算力投資。

國際市場調研機構IDC 2026年預測,全球活躍Agent數量將從2025年的2860萬,增長至2030年的22.16億。五年后,活躍Agent數量將是目前的近80倍。

中國市場算力消耗增長明顯。國家數據局數據顯示,截至今年3月,中國日均Token調用量超過140萬億,相比2024年初的1000億增長1400倍。

需求在爆發,但供給卻無法跟上。在供應端,半導體和數據中心相關產業都是重資產、長周期的行業。無論是SK海力士、三星半導體、美光科技的HBM內存,還是英偉達的GPU,英特爾、AMD的CPU,以及數據中心周邊供應鏈的擴產都需要更長時間。

由於需求爆發式增長,但供給相對不足,雲計算、ICT硬件、半導體等領域的相關人士對《財經》表示,短缺和漲價的趨勢至少會持續1年-2年。

不過,這一輪算力短缺,不像過去是簡單的供應鏈危機。它更像是AI產業飛輪啟動前的信號。只是飛輪轉得太快,供應鏈的齒輪沒完全咬合,所以出現了短缺和漲價這些現象。

全球AI規模化時代的序幕,正在拉開。

GPT-5.5生成

01

史無前例的算力需求

此輪算力需求的增長是史無前例的,甚至超過了過去20年

國際市場調研機構Gartner長期統計並預測全球IT支出(包括數據中心、設備、軟件、IT服務、通信服務等)數據。

Gartner數據顯示,2025年全球數據中心投資規模達到5056億美元(約合3.4萬億元),同比增長51.6%。預計2026年將達到7880億美元(約合5.4萬億元),同比增長55.8%。

《財經》查閲了Gartner近20年統計的全球IT支出數據發現,2025年-2026年的數據中心投資規模和增速,至少是20年來(2006年至今)最高的。

具體到中國、美國的科技和算力巨頭,它們的資本支出均處於高速擴張階段。

中國七家科技/算力巨頭(阿里、字節跳動、騰訊、百度、中國移動、中國聯通、中國電信)2025年資本支出約6586億元,同比增長16%。保守估算,2026年資本支出在6836億元以上,至少增長4%。

美國五家科技/算力巨頭(包括亞馬遜、微軟、谷歌、Meta、甲骨文)2025年資本支出4500億美元(約合3.1萬億元),同比增長70%;預計2026年資本支出7600億美元(約合5.2萬億元),增長69%。

中國和美國科技/算力巨頭合計近8000億美元的算力投資,甚至已經超過很多主權國家(包括德國、英國、韓國、俄羅斯、巴西等)2025年固定資產投資規模。

Agent爆發正在推動算力需求爆發。這讓全球主要雲計算廠商(包括亞馬遜AWS、微軟Azure、谷歌GCP、阿里雲、甲骨文OCI)的營收增速均達到了近三年的最高點。

主要雲廠商甚至在把Token視為下一個核心增長點。各家的Token收入和佔比也在快速增長。它甚至在改變雲計算的產品架構和銷售策略。

過去十余年,衡量算力需求的單位一直是「卡時」(芯片在雲上的租賃時長)、服務器臺數、芯片數量等。廠商更關注賣出了多少小時CPU/GPU雲資源,多少張CPU/GPU、多少台服務器。

隨着Agent爆發,算力被拆解成Token這種顆粒度更細、可實時計量、持續消耗的資源單位。過去一次性購買服務器或雲資源的模式,開始轉向持續性的Token消耗模式。

用户使用算力的門檻也在大幅降低——AI正在從聊天和對話走向日常工作。它在今天的Token消耗量遠超過去的AI對話工具。

百度智能雲大模型平臺總經理忻舟2025年12月曾對《財經》表示,Agent執行的是一系列任務。任務過程中,模型會不斷用代碼規劃任務、調用工具並記錄執行狀態,每個步驟都可能觸發新的模型調用。一次對話可能只消耗數千Token,但一次任務可能就會消耗數萬,甚至數十萬Token。

《財經》在字節跳動旗下的火山引擎方舟、OpenAI的Codex這兩個平臺上嘗試了幾種不同的任務——日常對話消耗的Token在1000以內。AI閲讀分析一篇文章消耗的Token規模達到5000以上。分析某個公司24個季度財報PDF文件Token消耗量達到10萬以上。搭建一個公司財務分析的小型網頁應用消耗的Token達到了億級。

Token消耗量的增長,讓中國、美國的算力均供不應求——阿里雲、亞馬遜AWS銷售人士均對《財經》表示,2026年算力市場是賣方市場。有多少算力,就能賣多少算力。

5月13日,阿里2026財年四季度(2026年一季度)財報電話會中,阿里集團CEO(首席執行官)吳泳銘側面證實了這一説法。他説,目前阿里的服務器中沒有一張卡是閒置的。

Token消耗量的增長也帶動了各個科技或算力公司的Token收入增長。雖然它在各個公司雲業務中的佔比僅為個位數,但成長速度極快。

《財經》獨家獲悉,截至5月13日,阿里雲日均Token收入相比4月初已經增長超過5倍。月收入目前已經達到數億元級別。(報道詳見《獨家|阿里雲日均Token收入較4月初已增長五倍》)

阿里管理層在2026財年四季度財報后電話會議披露,包括百鍊MaaS(模型服務)平臺在內的模型和應用年度經常性收入(ARR,計算方式為當月收入×12)在快速增長。它在2026財年四季度收入超過80億元,2027財年一季度有可能超過100億元,2027財年末將超過300億元。阿里雲相關人士對《財經》表示,這些以Token收入為主。

字節跳動旗下雲與AI業務火山引擎今年4月披露,截至3月,豆包大模型日均Token使用量超過120萬億。2025年12月,該數據是63萬億。也就是説三個月增長近1倍。

《財經》2026年初從多方得到的消息是,火山引擎2025年外部業務(剔除字節跳動內部業務)的Token收入遠超10億元。2025年末,火山引擎曾制定2026年Token收入至少翻倍的增長目標。2026年隨着豆包視頻模型Seedance 2.0變得流行,火山引擎Token收入目標還在繼續大幅上調。

中國某ICT(信息與通信技術)硬件企業一位資深戰略規劃人士2025年下半年曾對《財經》表示,他對火山引擎未來可能的Token收入進行了敏感性測試(一種綜合外部市場條件變化進行市場動態分析的方法),結果顯示,火山引擎Token收入未來一年到兩年可能增長至百億元。

美國市場趨勢類似,亞馬遜、谷歌的雲業務Token收入也在大幅增長。

亞馬遜AWS今年一季度Token消耗量超過了歷史季度總和。亞馬遜2026年一季度財報電話會披露,旗下MaaS平臺Bedrock客户支出環比增長170%。《財經》瞭解到,目前Bedrock的年收入為數十億美元,在亞馬遜AWS2025年1287億美元營收大盤中佔比為個位數。

早在2025年三季度財報電話會,亞馬遜AWS管理層曾表示,長遠來看,Bedrock收入貢獻將與EC2不相上下。《財經》瞭解到,EC2是亞馬遜AWS最核心的計算產品,年營收至少超過400億美元,總營收佔比超過30%。照此預測,Bedrock未來的收入將會達到數百億美元。

今年4月,亞馬遜AWS技術副總裁Mai-Lan Tomsen Bukovec(美蘭·湯姆森·布科韋茨)在一場小規模溝通中對《財經》表示,推理正在成為一種常態化的應用。她還表示,這也是Bedrock誕生的初衷。用户不必成為AI專家,任何開發者都能通過API(應用接口)使用推理應用。

谷歌近半年在財報電話會中連續披露了Token增長情況。谷歌管理層在2026財年一季度財報電話會表示,谷歌一方模型目前每分鍾處理的Token數量超過160億,高於上季度的100億。過去12個月中,330家谷歌雲客户分別處理了超過1萬億Token。其中35家達到了10萬億Token。

Token讓算力從一次性的基礎設施投資,變成一種持續消耗、實時計費的算力資源。越來越多科技/算力廠商開始關注:單卡在單位時間能夠生成多少Token;單位Token成本,以及Token收入增長有多快。Token正在改變整個算力產業鏈的利潤分配方式。

02

誰卡住了算力?

史無前例的高需求,產業鏈猝不及防

隨着下游的算力投資和用户需求高速增長,上游供應鏈(包括GPU、CPU、HBM、高速網絡、光模塊與銅模塊等)的需求同步增長。

Token和雲的增長本質是軟件的擴張,它的增長極快,可以按月、周甚至是天變化。但半導體和數據中心的擴張是工業的擴張,它的速度慢、周期長。

Token和雲的需求暴漲,導致整個算力上游供應鏈的三條線同時開始變得緊繃:

其一,HBM高帶寬內存,它是存儲芯片的一種,是算力供應鏈當前最核心的卡點。

其二,GPU、CPU等芯片持續供不應求,Token需求在吞噬全球計算資源。

其三,光模塊、銅模塊、高速交換機、液冷與數據中心等零部件,也正在進入緊張狀態。

當我們在討論缺貨,其實是一臺算力機櫃內的所有零部件都面臨短缺局面——2025年-2026年熱銷的英偉達GB200 NVL72算力機櫃是呈現這個問題的最佳切面。

英偉達GB200 NVL72算力機櫃由72個B200 GPU、36個Grace CPU、576組HBM3e(第五代高帶寬內存)共同構成。國際半導體市場調研與諮詢機構SemiAnalysis估算,一臺GB200 NVL72機櫃需要5184根高速銅纜用於內部連接,需要72個光模塊用於連接外部網絡。

在GW(吉瓦是功率單位。1GW算力集群可容納超過10萬枚英偉達GB200芯片,整體建設耗資超過100億美元)規模的萬卡算力集群中,又需要更多高速光纖對數千個GB200 NVL72機櫃進行連接。

日本野村證券在半導體產業鏈有着長期積澱。野村證券2025年12月曾報告稱,2026年英偉達GB200 NVL72的理想出貨量是73000台(即超過520萬卡)。但實際情況是由於製造工藝複雜且良率不足,它的產能釋放遠低於市場需求,英偉達GB200 NVL72可能存在23000台(即超過165萬卡)的缺口。

缺貨問題的源頭是先進製程、先進封裝產能不足——CPU、GPU、HBM基底芯片,甚至網絡芯片等所有關鍵芯片,全都依賴臺積電。

英偉達GB200 NVL72中的B200 GPU採用臺積電定製4NP(5nm增強版)先進製程製造。單顆GPU由兩塊接近光刻極限尺寸的邏輯裸片組成,通過10TB/s的卡間互連進行通信。製造完成后,B200 GPU還要與存儲芯片廠商提供的HBM3E共同進入臺積電CoWoS(Chip-on-Wafer-on-Substrate)先進封裝環節,最終被共同集成在一起。

當先進製程、先進封裝產能擴充時,GPU、HBM的出貨量才能真正提升。

問題在於,擴產周期極長、技術難度極高。臺積電董事長兼總裁魏哲家在2026年一季度財報電話會議明確表示,臺積電已調集全部設備資源,但供應依舊極度緊張,需求仍在持續增長。先進製程產能是制約全球AI產業發展的關鍵變量。

國際半導體調研與諮詢機構TrendForce2026年4月報告稱,臺積電規劃在2027年新增超過60%CoWoS產能,預估產能嚴重緊缺的現狀將於2027年略微改善。

HBM是GPU背后長期被忽視的核心零部件,它也是今天算力短缺潮中的「隱形瓶頸」。它的供應能力直接影響先進GPU的出貨能力。(報道詳見《存儲芯片暴漲真相》)

GPU被認為是卡住算力供應的核心產品。然而,真正卡住GPU供應的卻是HBM。一枚英偉達B200 GPU搭載了8組HBM3E。缺少HBM,GPU量產后也無法最終出貨。

HBM不僅影響着GPU的供應,還影響它的性能表現。因為HBM決定了GPU的數據吞吐能力,直接影響着GPU在單位時間的Token吞吐量。模型訓練與推理中,需要讀取海量參數、上下文與緩存數據。尤其是Agent任務中,模型對於數據吞吐量的需求還在增長。GPU需要HBM用更高的帶寬輸送數據、保持記憶。

全球HBM市場由SK海力士、三星半導體、美光科技這三家存儲(包含DRAM內存和NAND Flash閃存)芯片廠商主導。三家企業佔全球95%以上的份額。但目前,它們在2026年的HBM產能已基本售罄。英偉達和美國五大科技公司已鎖定2026年90%以上的產能。

HBM不僅需求旺盛,且單顆利潤是DDR4(第四代內存)存儲芯片的10倍多,三大存儲巨頭為搶抓AI需求,獲得高毛利,紛紛將先進產能優先配給HBM和DDR5(第五代內存)。

但即使如此,HBM仍然面臨缺口。國際半導體調研與諮詢機構SemiAnalysis2026年2月報告顯示,HBM供應缺口從2025年的5%擴大到2026年的6%,並將在2027年擴大至9%。這個數字看起來似乎不高,但它造成的實際市場緊張程度遠高於數字本身。因為這足以引發整個市場提前鎖產能、預訂產能、簽訂長約,甚至是囤貨漲價。

HBM稀缺,讓SK海力士、三星半導體、美光科技在算力產業鏈的地位迅速上升。

2025年10月,英偉達創始人黃仁勛訪問韓國期間,專程與三星電子會長李在鎔會面。兩人的交流甚至以「炸雞啤酒」的韓式聚餐形式展開。這也折射出,在HBM產能緊張的背景下,GPU廠商與存儲芯片廠商之間的關係正在變得更加重要。

一位存儲芯片產業鏈人士今年2月末對《財經》表示,半導體行業高度重視長期信任關係。這種關係往往是通過高層互訪與深度交流建立的。這類會面不僅是禮節,更關係到未來供應鏈合作、產能優先級,甚至是長期協同的穩定性。

既然高利潤且缺貨,存儲芯片廠商為何不建廠擴產?因為擴產風險極高。

存儲芯片行業長期具有強周期性,價格波動劇烈。廠商對擴產的態度非常謹慎。存儲芯片廠商會要求下游客户簽訂長期供貨協議,以鎖定需求才能擴產。

長期以來,存儲芯片市場總是沿着「價格上漲-企業擴產-供給過剩-價格下跌-產能出清-供給短缺-價格再漲」周期循環。

一般來説,存儲芯片的擴產需經歷設備採購、廠房建設、工藝調試、良率爬坡等環節,周期長達18個至36個月。上一輪存儲周期始自2021年左右,當時全球缺芯潮推動存儲芯片廠商大規模擴產,2023年產能集中釋放后,疊加下游需求疲軟,引發存儲芯片價格持續下跌。

基於以上原因,即使這一輪算力需求大爆發,存儲芯片廠商也不敢隨意擴張。

這甚至已經發展到了極端情況。存儲芯片供貨原本隨季節波動,但遊戲規則正在被打破。美光科技在2026年3月的財報電話會披露,它與特定客户簽署了三年至五年不等的多年供貨協議。

蓉和半導體諮詢CEO(首席執行官)吳梓豪曾是臺積電廠務工程師,負責過國內多個晶圓廠的建設。他對《財經》表示,存儲芯片每次周期都很猛,一直有「三年不開張,開張吃三年」的説法。目前,高端存儲產品出現結構性供應失衡,加上數據中心存儲需求一直在擴大,這一波高點可能會持續至2027年全年。

除了存儲芯片缺貨,另一個「反直覺」的現象是,先進製程的高性能CPU也缺貨。

過去三年,GPU一直被視為最核心的算力資源。CPU地位甚至一度被削弱。但隨着Agent爆發,CPU重要性在提升。GPU越強,CPU甚至越重要。

Agent工作時,不僅需要GPU負責推理計算,也需要CPU處理複雜的任務編排、工具調用和邏輯判斷。Agent要頻繁在模型、工具中切換,CPU通信帶寬和單核性能也更重要了。

英特爾CEO陳立武在今年4月財報電話會中稱,隨着AI工作負載重心從訓練轉向推理,服務器中的CPU和GPU配比正在逐漸從1∶8變成1∶2至1∶1轉變,CPU需求正在激增。

Arm公司CEO雷內·哈斯(Rene Haas)3月在Arm AGI CPU發佈會表示,隨着Agent普及,每GW算力所需CPU核心,可能會從過去的3000萬提升至約1.2億,增長約4倍。

美國投資銀行KeyBanc今年1月研報稱,英特爾、AMD2026年服務器CPU產能已售罄。爲了應對供需失衡,兩家巨頭考慮2026年一季度將服務器CPU平均售價提高10%-15%。

某知名中國算力服務商高管今年5月向《財經》證實,國內大部分品類的服務器CPU已漲價約20%,但暫時沒有大規模缺貨。他認為本輪服務器CPU供不應求的狀況不會像存儲芯片那麼極端,所在公司目前也還沒有囤貨打算。

一位資深芯片貿易商表示,深圳華強北炒得比較多的服務器CPU主要是英特爾至強處理器6767P處理器。年初大概4萬元每卡,目前公開報價為13萬元-17萬元。

如果説HBM決定GPU內部的數據吞吐能力,GPU和CPU決定單台服務器的計算與調度能力,那麼網絡決定的是成千上萬台服務器之間能否高效協同。隨着萬卡、10萬卡算力集群的擴張,包括光模塊、銅模塊等在內的零部件也在成為卡住算力供應鏈的重要因素。

萬卡、10萬卡算力集群,並不是簡單把更多GPU堆在一起。集群規模越大,芯片和機櫃之間的數據傳輸壓力就越大。

光模塊是數據中心集群間,甚至是服務器機櫃間的重要連接部件之一,它包括光接口、光纖等。隨着算力集群從萬卡走向10萬卡,數據中心間的數據傳輸速率正在從400G向800G、1.6T(G、T都是數據中心網絡傳輸速率單位,代表單位時間內可傳輸的數據量)升級。這帶動了光模塊的需求。

光模塊,這個看起來不起眼的零部件如今同樣面臨缺口。國際管理諮詢機構麥肯錫2025年7月預估,800G的光收發器產量預計到2027年仍比需求低40%-60%。光模塊背后,新易盛、中際旭創、天孚通信三家中國公司是核心供應商。這三家公司2025年營收增速均超過50%,近一年(2025年5月18日-2026年5月18日)市值均上漲超過600%。

2026年的算力短缺與過去不同。它不是某一個零部件缺貨,實際上是芯片、存儲、封裝、網絡和數據中心建設等多個瓶頸共同決定的。

03

算力短缺引發漲價潮

「以前200萬能買八臺GPU服務器,現在只夠買四五臺,服務器廠商寧願毀約不交貨」

算力產業鏈中,任何一個核心零部件缺貨,最終都會導致漲價,而且是通過芯片、服務器、數據中心、雲、模型和AI應用,一層層向下傳導。需求增長越快,傳導就越明顯。

價格傳導最先發生在HBM、GPU、CPU等為主的服務器等硬件市場。

上游產能不夠,服務器廠商不得不和英偉達、英特爾、AMD等芯片廠商,SK海力士、三星半導體、美光科技等上游廠商簽訂長期協議(Long Term Contract)提前鎖定產能。

一位中國頭部ICT廠商CEO今年5月在一場小規模溝通中對《財經》表示,在供不應求的背景下,上下游的關係也在發生變化。過去幾年,更多是上游供應商主動拜訪他們。但2026年,他已經主動前往美國、韓國、中國臺灣等地區拜訪SK海力士、三星半導體、英特爾、AMD等核心供應商。

然而,即使簽訂長期協議,上游廠商的產能依然無法滿足所有需求。他和他的同行必須去現貨市場「掃貨」——也就是從市場上那些有貨的人手中收購幾臺或幾十台服務器,逐漸聚攏貨源。

部分廠商甚至為此準備了數十億元級別的現金流,以便迅速完成採購。上述中國頭部ICT廠商CEO透露,他們的策略是儘可能掃光市面上的貨。因為他判斷2027年中前算力市場都會供不應求,「拿到貨后,第一天測試,第三天給錢。全部給現金。」

新智惠想是一家AI基礎設施創業公司,為企業客户提供軟硬件一體化產品和服務。該公司創始人吳健對《財經》表示,現在企業都是派人帶着現金到各地芯片貿易商的庫房里去搶貨。搶到了就直接打現金,然后趕緊發走,后續再走合同。

供不應求也開始改變原有的合同與價格體系。由於HBM、GPU等關鍵零部件價格大幅上漲,毀約、重新談判等現象開始屢見不鮮。

過去一年,部分高端存儲產品價格出現數倍上漲。一些服務器廠商此前簽訂的項目合同已無法覆蓋當前採購成本。一位地方國資企業人士對《財經》表示,「以前200萬元能買八臺GPU服務器,現在只夠買四五臺,服務器廠商寧願毀約不交貨。」

上述ICT廠商CEO對《財經》表示,由於HBM、GPU等核心零部件價格短期暴漲,他們此前簽訂的部分長期合同已經出現嚴重倒掛,「去年到今年,64G內存價格漲了10倍。我們簽下的合同,如果按原價賣會賠本」。

張宇林是深圳華強北一位服務器內存芯片貿易商,在這行深耕26年。他向《財經》表示,現貨市場的臨時毀約很常見。有時雙方談好價格並付款后,仍可能被告知無法全部交付。張宇林也承認,自己曾經臨時取消過幾單下游客户訂單,「因為我的上游也臨時取消了供貨,但是這些客户大多仍會繼續讓我幫他們找貨」。

硬件市場的短缺和漲價也在逐漸傳導到雲計算市場。

GPU、HBM等硬件是雲廠商數據中心中最核心的資產。硬件上漲,意味着雲廠商每新買一臺服務器的資本支出都在增加。亞馬遜、微軟、谷歌管理層在最新財報電話會議中均表示,2026年上調資本支出,核心目的是應對上游供應鏈漲價。

這些成本最終要攤到雲廠商的每張卡、每個Token上。

過去20年,雲計算行業一直在降價。2006年亞馬遜AWS成立至今經歷了超過100次降價,阿里雲2009年誕生后每一年至兩年都會進行一輪降價。算力越來越便宜,一直是科技行業默認的技術趨勢。

但2026年,雲廠商也不得不面對成本壓力——今年1月,亞馬遜AWS上調其EC2機器學習計算實例價格約15%。今年3月,阿里雲公告稱,因全球AI需求爆發及供應鏈成本上漲,AI算力、存儲等產品將上調價格,漲幅最高達34%。

多位雲計算銷售人士對《財經》表示,2026年的雲市場已經是賣方市場。過去客户採購雲資源,通常還能比價、壓價、等待促銷。但現在採購AI算力不僅有配額,還要排隊。這是過去三四年從未出現過的現象。

國際半導體市場調研與諮詢機構SemiAnalysis數據顯示,2022年3月發佈的英偉達H100芯片,在雲上單卡一年期合約的租賃價格從2024年5月-2025年10月一直在下滑。最低一度到1.7美元/卡時。但2025年10月-2026年3月之后,H100租賃價格一直在上漲,3月價格已經上漲至2.4美元/卡時。

一位亞馬遜AWS一線銷售人士今年4月對《財經》證實,SemiAnalysis記錄的價格趨勢,和他們為中國客户銷售的北美雲資源實際價格基本一致。

在這種情況下,雲廠商正在思考如何把有限的算力轉化成更多高毛利的產品。

一位中國雲廠商大模型平臺負責人今年5月對《財經》直言,「賣GPU硬件不如賣雲,賣雲不如賣Token。」因為賣GPU硬件是一次性硬件收入,賣雲是銷售卡/時,但按Token銷售算力,可以把算力顆粒度拆得更細,賣給更多客户。他證實,他們銷售的Coding Plan(可理解成Token套餐)比傳統雲資源有更高的毛利率。

雲廠商的算力成本還在進一步往下游傳導——模型公司和應用公司是下一環節的承受者。

智譜GLM系列模型的Token價格在2026年價格上漲了三次。今年2月Coding Plan(可理解成Token套餐)價格上漲30%,3月GLM-5-Turbo旗艦模型API價格上調20%,4月智譜GLM Coding Plan海外版三款模型的價格全線分別上漲80%-150%。即使如此,智譜官網的Coding Plan仍然每天需要搶購且很快售罄。

今年5月初,字節跳動旗下AI應用豆包在蘋果App Store宣佈將會推出付費訂閲服務。其中包括標準版(68元/月)、加強版(200元/月)、專業版(500元/月)三檔。不過,這一計劃尚未正式落地。豆包目前暫時未披露訂閲服務中的權益細節。

豆包嘗試收費一度在互聯網上引發廣泛討論,但這是算力全線漲價下的正常商業行為。過去,豆包單純的AI對話所需Token有限。豆包逐漸引入編程、視頻生成、PPT生成等一系列複雜Agent功能,都對應着真實算力成本。

算力漲價從芯片沿着雲、模型、Token和應用,一層層傳導到最終用户。過去,互聯網應用的邊際成本接近於零。但AI應用不同,它的每一次生成、每一次推理、每一次Agent任務,背后都對應着真實的算力成本。

04

算力蛋糕如何重新分配

所有廠商都在等一件事——企業和用户的算力需求產生價值,帶動整個產業鏈形成正循環

目前的情況是,英偉達一家公司遙遙領先,它的利潤空間還在快速擴大。雲計算和存儲芯片公司則是佔據着第二梯隊,它們也能夠在這種情況仍然取得更高的利潤。

源頭的臺積電幾乎壟斷着先進代工和封裝能力,限制着HBM、GPU乃至CPU的生產能力。無論產業鏈如何波動,它都能掌握着穩定的利潤。2025年,臺積電營業利潤207億美元。

上游的英偉達佔據GPU市場的主導地位。SK海力士、三星半導體、美光科技控制着HBM市場的主導權。這四家公司擁有整個產業鏈中最強的利潤能力。其中英偉達2025年營業利潤1304億美元,三家存儲芯片公司合計587億美元。

中游的服務器廠商(包括工業富聯、戴爾、HPE、超微、浪潮、聯想、新華三等),雖然直接受益於服務器需求增長,但由於議價能力不夠強,它們更多承擔系統集成和分銷交付的角色,利潤空間相對有限。七家服務器廠商2025年營業利潤合計165億美元。

同在中游的雲計算廠商(包括亞馬遜AWS、微軟Azure、谷歌GCP、阿里雲等)掌握着算力分發能力。雲廠商雖然承擔上游硬件漲價壓力,但它們可以提升算力效率,按Token售賣算力,甚至還可以通過自研芯片、自研模型降低每個Token的成本。因此,它們也能抵禦產業鏈波動,取得收入和利潤增長。四家雲廠商2025年營業利潤合計1119億美元。

下游的大模型廠商(美國市場包括OpenAI和Anthropic等,中國市場包括智譜和MiniMax等),它們雖然擁有最直接的用户入口與最快增長的Token調用量,卻也承擔着最沉重的推理成本。目前無論是美國市場的OpenAI、Anthropic,中國市場的智譜、MiniMax都仍在虧損。中美四家大模型廠商2025年合計虧損超過140億美元。

最末端的開發者、企業客户、普通用户則是需要承擔算力漲價帶來的直接壓力。

看起來這個產業結構似乎並不健康。上游芯片公司、存儲廠商、雲廠商吃掉了大部分的利潤,下游的模型公司、應用公司乃至企業客户、普通用户並未得到可見的利潤。但算力產業鏈的蛋糕分配並不是簡單的「零和博弈」。所有人都在等一件事——企業和用户的算力需求產生價值,帶動整個產業鏈形成正循環。

事實上,這次算力短缺並不是簡單的供應鏈危機。它更像是AI產業飛輪啟動前的信號。

2026年,這個趨勢已經初見端倪。國際市場調研機構IDC今年5月預測,2026年中國Token調用次數將達到40000萬億次,較2025年增長20倍。

2023年-2025年,AI更多停留在聊天和問答場景,Token能夠創造的價值有限。但隨着2025年末大模型Coding能力(代碼生成)跨越臨界點,越來越多沒有代碼基礎的普通人、企業內更多不懂IT的業務人員都在成為雲的直接用户。他們給Agent下任務時,Agent會自動Coding操作電腦、編寫應用並消耗Token,併產生真實業務價值。

阿里公共雲事業部總裁劉偉光2025年拜訪了140多家企業客户。當時,Token在大部分客户IT支出中的佔比不到1%。互聯網、金融、零售、製造等企業都是如此。

但2026年市場劇烈變化。劉偉光粗略估算,一些AI創業公司的Token支出開始佔其IT總支出的100%。互聯網公司Token支出佔比普遍達到15%-20%,其他步伐相對更慢的企業則仍在5%以下。

劉偉光發現四川、河南某些畜牧類企業也在擁抱大模型。大模型降低了他們使用AI的門檻。大量原本沒上雲的企業在上雲,很多企業不僅IT預算投向AI,業務預算也在投向AI。這在過去無法想象。

劉偉光今年5月在一場小規模溝通中對《財經》表示,「在雲這個產業經營太久后,每一個人,包括我自己,都會有一些思維慣性。」

阿里雲的銷售團隊過去有清晰的「作戰地圖」。他們不僅清楚客户人群,還會根據企業客户的IT預算結構反推能夠實現的銷售目標。劉偉光認為,這些都是「看得見答案」的生意。但在今天這種劇變的環境中,「作戰地圖」是看不見的。因為,伴隨模型能力躍升、Agent不斷普及,算力正在被更多原本不使用雲和AI的企業、用户使用。

每一輪技術變革,都會讓技術的使用門檻變低。產業變革也會在這個過程中涌現——一批創新企業會因此誕生,它們會創造新的市場蛋糕。(報道詳見《中國算力,以何強壯?》)

2025年12月,一位長期從事信息化產業政策研究的產業資深人士曾對《財經》表示,他關注的是,中國在AI時代,能否像移動互聯網時代一樣,誕生一批創新企業。他當時對此更多的是擔憂。因為當時中國市場並未出現足夠多真正具備全球影響力的AI創業公司。

但2026年,中國市場很快進入新的階段。月之暗面、智譜、MiniMax等一批大模型創業公司的模型迅速在全球開發者市場產生影響力,國內市場一批Agent工具也在批量涌現。

野村中國科技及電訊行業分析師段冰今年4月在一場小規模交流中對《財經》表示,隨着基礎模型能力提升、基礎設施持續投入以及上層應用逐漸成熟,中國AI產業鏈正在逐漸形成良性循環。這會驅動AI產業鏈的持續增長,給產業界、投資界帶來更多機會。

不過,這還只是開始。算力需要被真實應用、持續使用,並最終形成可驗證、可持續的商業回報。市場蛋糕在這個過程中才會真正被做大。

本文來自微信公眾號「財經雜誌」,作者:吳俊宇 周源,編輯:謝麗容,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。