繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

華泰 | 計算機:Token推動算力需求非線性增長

2025-07-18 07:25

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:華泰證券研究所)

Token調用量與算力需求非線性增長

推理和Token調用量之間不是線性關係:從Agentic AI底層來看,推理過程的倍數項包含Agent數和迭代次數,多Agent協作和多工具調用帶來Token消耗量倍數增長。Token的增長與算力硬件需求之間也不是線性關係:據黃仁勛在3月份的GTC大會中所述,「Token量增長10倍,所需的算力量的增長可能增長100倍」。這是因為推理過程變得更加複雜,在同樣的算力條件下,計算的時間也將增長,如果要求模型具備交互性與實時性,則需要將計算速度提升10倍。我們認為,Agentic AI將帶來Token調用量10倍以上增長,從而帶來算力需求100倍以上提升。目前市場對於算力需求有較大的預期差,未來算力需求空間廣闊。

三條Scaling曲線為算力需求打開空間

目前市場熟知的Scaling law預訓練Scaling law,即數據和參數量的增長可以提升模型性能。對預訓練Scaling law見頂的擔憂導致市場對算力的需求的低估。但我們認為,考慮到后訓練Scaling和推理ScalingAI對算力的需求仍有大量空間。推理Scaling的必要性在於提高模型性能,特別是模型在困難問題方面的表現,是通往Agentic AI的重要路徑。回顧Grok 4的發展歷程,對應了三條Scaling曲線。20252月,Grok 3發佈,相比於Grok 2,將預訓練階段的算力擴10倍,實現性能的突破,對應預訓練階段的Scaling law20257月,Grok 4發佈,將后訓練與推理過程的算力擴大10倍,在推理/測試階段花費更多時間思考,調用更多算力,例如通過多Agent共同思考,商議問題結果,進一步在HLE測評集上實現突破,對應后訓練與推理過程的Scaling law

Token調用量隨推理擴展呈倍數增長

GTC 2025大會中,黃仁勛多次提到了「Agentic AI」,理解Agentic AI才能理解大會中Token量大幅增長的結論。我們認為Deep Research是「Agentic化」的AI Search,是研究Agentic AI合適的抓手。我們從Deep Research的底層系統設計入手,分析得出Token量增長源於多Agent和多工具調用,並基於系統運行流程對Token增量進行量化。根據我們的測算,Deep ResearchToken消耗可能接近單次聊天的50倍。對於比Deep Research更復雜的一般Agentic AIToken增長量會更高。

AI算力需求隨Token增長呈倍數增長

推理過程中存在延迟與吞吐量兩個重要指標,兩個指標相互制約,分別決定了用户對於模型/AI應用的使用體驗(若延迟過高,則會失去用户)與模型/AI應用廠商的總任務處理量,對應AI服務的量價關係,從而決定了AI服務的商業化。考慮模型/AI應用廠商Token經濟學的「帕累托最優」問題,則需要追求用户使用量與AI服務質量之間的平衡,而想要擴大最優邊界,則需要增加算力硬件。隨着推理過程變得更加複雜,在同樣的算力條件下計算的時間也將增長。用户太久的等待將失去耐心,如果要求模型具備交互性與實時性,則需要用額外的算力來減少因為單任務Token量擴大帶來的時延,即用算力換時間,所以算力需求的增長與Token的增長呈倍數關係。

風險提示:宏觀經濟波動,模型迭代不及預期,AI商業化進展不及預期。

New Scaling:不止於預訓練,三條Scaling推動算力需求增長

目前廣泛熟知的Scaling law是預訓練Scaling law,市場認為預訓練Scaling law可能已經見頂。但我們認為,考慮到后訓練Scaling和Test-time Scaling(即推理Scaling),AI對算力的需求仍有大量空間。

從三條Scaling law的差異看為什麼算力需求將繼續增長

預訓練和后訓練Scaling屬於訓練階段,推理Scaling屬於推理階段:

1) 預訓練Scaling,性能和數據、參數量相關:OpenAI在2020年發現模型性能與數據、模型參數量、計算量呈冪函數關係。由於Transformer模型中計算量(C)和模型參數量(N)、數據集大小(D)之間存在 C≈6ND 的近似關係,所以可以簡單理解為通過增加數據量和模型參數量能夠提高性能。DeepMind在2022年進一步補充,得到的結論為,爲了使模型達到最佳性能,模型參數量應與訓練集的大小成等比例擴張。

2) 后訓練Scaling,利用微調等技術提高模型能力和領域特異性:預訓練模型的性能可以通過微調、蒸餾、強化學習、最佳n採樣、搜索等方式進一步提高。后訓練對算力的需求主要體現在基於預訓練模型的衍生模型開發中,流行的開源模型可能擁有數百甚至數千個衍生模型。根據NVIDIA 252在官網發佈文章「How Scaling Laws Drive Smarter, More Powerful AI」中的估計,為各種用例開發衍生模型所需的計算量可能比預訓練原始基礎模型多30倍左右。

3) 推理Scaling,性能與推理時間相關:通過增長模型的推理時間,模型會在推理過程中消耗額外的計算量,推理出多箇中間答案並綜合得到最終結果。相關技術包含思維鏈、多數投票採樣和搜索。根據NVIDIA在上文同篇文章的估計,對於高難度的查詢,所需計算量很容易達到傳統AI模型單次推理的100倍以上。

推理Scaling的必要性和算力消耗量化

推理Scaling能大幅提高模型回答困難問題能力,是通往Agentic AI的重要路徑。

1) 預訓練受到訓練數據的約束:根據預訓練Scaling law的量化公式,通過預訓練提升模型性能需要模型參數量和數據成比例擴張。但根據Epoch AI 2024年7月的論文《Will we run out of data? Limits of LLM scaling based on human-generated data》 villalobos(2024),原始數據的擴張將難以支撐AI大模型發展的速度,在2026-2032年之間的某個時間點,數據存量將耗盡。

2) 推理Scaling能提高模型性能,特別是困難問題方面:根據OpenAI o1報告,增加推理時間可以快速提升模型性能,在預訓練需要的數據量受限的情況下,推理Scaling是提升模型性能的可行路徑。推理模型在困難問題上相對傳統模型有更顯著效果提升,以Humanity’s Last Exam(HLE),Phan(2025)測試為例,HLE旨在成為AI測試基準中覆蓋廣泛學科的終極封閉式學術基準,包含2500道高難度問題。在HLE測試中推理模型的平均通過率為14%,遠遠高於傳統模型的5%。

3) 推理Scaling是通往Agentic AI的重要路徑。相對於簡單聊天,Agentic AI有更復雜的任務流程,需要調用不同工具。推理Scaling使模型能夠對複雜且開放式的用户查詢提供合理、實用且更準確的相響應,這些能力對於Agentic AI所需要的詳細、多步驟推理任務至關重要。

推理模型的Token消耗可能是傳統模型的10倍左右。根據《Humanity’s Last Exam》 Phan(2025)中的測算,在HLE任務中,推理模型爲了實現性能提升,需要生成比非推理模型多得多的Token。以數學任務為例,推理模型的平均消耗超過6000 Token,而非推理模型的Token消耗不超過500 Token,因此推理模型的Token消耗可能是傳統模型的10倍左右。

Grok系列模型的發展對應了三條Scaling曲線

Grok系列模型發展歷程對應三條Scaling曲線。2025年2月,Grok 3發佈,相比於Grok 2,Grok 3將預訓練階段的算力擴大10倍,實現性能的突破,對應預訓練階段的Scaling law。2025年7月10日,Grok 4發佈,將后訓練與推理過程的算力擴大10倍,實現了推理能力的提升,在各基礎測評中領先,對應后訓練與推理過程的Scaling law。

Grok 4證明了推理階段Scaling的有效性,HLE測評集上實現突破主要源於推理環節算力的提升。Grok 4進一步在HLE測評集上實現突破,在有工具調用的推理下,Grok 4在HLE測評中評分達到38.6%,相較於OpenAI o3的24.9%、Gemini 2.5 Pro的26.9%實現突破;Grok Heavy模型通過在推理/測試階段花費更多時間思考,調用更多算力,例如通過多Agent共同思考,商議問題結果,HLE分數達到44.4%;若在推理階段進一步提升算力,HLE的分數最高可提升到50.7%。Grok 4在HLE上的測評結果證明了推理Scaling的有效性。

從Deep Research看Agentic對Token量的影響

GTC 2025大會中,黃仁勛多次提到了Agentic AI,理解Agentic AI,才能理解大會中Token量大幅增長的結論。雖然Agent的概念早已不再陌生,但值得強調的是,Agentic AI和狹義的Agent存在差異。在此基礎上,我們認為Deep Research是「Agentic化」的AI Search,具備Agentic的共性,25年以來,無論是AI Search還是Deep Research都在引起越來越多的關注,因此本部分希望以Deep Research為研究Agentic AI的抓手,從系統設計入手,自底向上的分析Token量的變化,最后拓展到廣泛的Agentic AI場景,對Token量變動進行量化。

Agentic AI與狹義AI Agent存在差異:狹義的AIAgent是單流程的多工具調用,Agentic AI涉及多流程多工具調用。狹義的AI Agent是讓爲了完成特定任務而設計的單個AI組件,單個AI Agent按時間順序調用不同工具,最終完成任務。而Agentic AI需要協調多個AI Agent以完成更復雜的任務,在這個任務中,不同的Agent在不同時間範圍內完成不同任務,任務更加複雜,涉及更多的工具調用。下圖的工作流程中,AI Agent是線性的工作流,而Agentic AI是網狀的。

Deep Research是研究Agentic AI的重要抓手之一

AI Search正在成為Token消耗的重要組成。25Q1起,Google的Token量曲線上揚,25年3月Token量達到308萬億,環比增長81%。在Gemini月活與ChatGPT有較大差距的情況下,Google推理Token量接近微軟6倍的主要原因很可能來自市佔率第一的搜索業務,Google管理層在25年一季度的電話會中也將Token量的增長主要歸因於AI Search產品AI Overview。

Deep Research產品是AISearchAgent路徑拓展,被各家AI廠商競相推出。2024年12月,Google在發佈Gemini 2.0的同時發佈了Deep Research功能,可以通過持續搜索並總結最終生成綜合性報告,這是首個商業化的Deep Research產品,Google稱其「第一次在Gemini上融合多個Agent功能」。Google首次展示了Deep Research的產品形態,而OpenAI則進一步量化了產品能力。2025年2月,OpenAI推出基於OpenAI o3模型的Deep Research功能,在HLE任務中,Deep Research達到26.6%的通過率,相對此前最高的模型通過率提高了一倍。此后,Deep Research功能被各家廠商相繼推出,如Perplexity(2月)、xAI(2月)、Anthropic(4月)、微軟(7月)等。

Deep Research的Token多在哪?基於底層系統設計視角的分析

由於OpenAI、Google未公佈其Deep Research系統架構,本部分以Anthropic的Deep Research系統設計為例,從底層系統設計角度看Token量的增長原因。

Deep Research系統將任務分配給多個Agent,帶來成倍的Token消耗。在基於多Agent設計的Deep Research系統中,對於一個用户請求,作為主導的Lead Agent的工作是任務編排,將問題分成多個子查詢交給Search Subagent,對於返回的搜索結果,需要對結果進行分析總結,並隨時調用Citiations Subagent生成引用。相對於單次問答,這個過程包含任務編排+N查詢搜索+總結+引用,任務的複雜度有成倍提升。

更進一步看底層實現,搜索的過程是迭代式的,因而Token量進一步增加。細化到整體工作流,Lead Agent在得到N個查詢搜索結果后,並非直接將結果總結進行輸出,還需要對結果進行判斷,如果認為還需要進一步搜索,則將目前搜索到的內容作為輸入,進行循環迭代,直到判斷程序認為結果符合要求。因此,上文中的任務編排+N*查詢搜索+總結+引用將被進一步改寫為任務編排+(N*查詢搜索)*M次循環迭代+總結+引用。

從Search到Research,量化Agentic的Token影響

Anthropic Deep ResearchToken消耗達到聊天的15倍。根據Anthropic的數據,Agent(這里是指執行單一任務的AI程序)比聊天交互多消耗4倍的Token,基於多Agent構建的Deep Research則比聊天交互多消耗15倍Token。

15倍消耗量從何而來?

1) 測算依據:如下圖所示,假設每次思考和搜索的過程消耗的Token量和單次聊天交互相近,得到Deep Research過程消耗Token量約為聊天交互的 (2*n+2)*m+2 倍,其中n為每次循環創建的Search Agent數量,m為迭代循環的次數。

2) 假設依據:根據Anthropic,簡單的事實調查大約需要1個Agent調用3-10個工具,直接比較需要2-4個Agent調用10-15個工具,複雜研究需要10個以上Agent合理調用工具。假設創建2個Search Agent,迭代2輪,則Token的消耗量約為14倍。

Google/OpenAIDeep ResearchToken消耗量可能接近聊天的50倍。Google和OpenAI未公開Token消耗量情況,我們通過兩種方案對Token消耗量進行估計。

1) 基於上下文窗口大小:爲了避免過多信息輸入以及無休止的迭代搜索帶來計算和存儲壓力,設計者往往通過設定上下文窗口大小對輸入信息進行限制,對於超出限制的部分直接採用截斷處理。Anthropic Deep Research的上下文窗口設定為20萬Token,Google Deep Research的上下文窗口為100萬Token,從而Google的Token消耗可能也會接近Anthropic的5倍,對應接近50倍的聊天Token消耗。

2) 基於輸出時間和長度:Deep Research單次回答問題推理時長一般在5-10min,輸出文字長度與參考網頁數量一般為單次交互的幾十倍以上,據此我們假設單次 Deep Research的Token數為單次交互的50倍。

Token量的增長是否必要?是,Token量增長是效果提升的關鍵。Anthropic分析了模型在BrowseComp測試(評價模型搜索難以查找信息的能力)中的效果,得出的結論是三個因素解釋了95%的性能差異:Token消耗量、工具調用次數和模型選擇,其中Token消耗量可以解釋80%的性能差異。OpenAI在25年2月發佈的Deep Research報告指出,模型瀏覽和思考的內容越多,它的表現就越好,因此,給模型足夠的思考時間很重要,而瀏覽和思考過程都是Token的消耗過程。

Agent使用和多工具調用能進一步提升Grok 4HLE測試中的結果。根據Scientific American在25年7月10日對Grok 4的報道,在HLE測試中,Grok 4本身的得分為25.4%。但如果使用工具(例如代碼執行或如Web搜索的外部輔助),它的得分會達到38.6%。使用Grok 4 Heavy版本得分躍升至 44.4%,該版本使用多個AI Agent來解決問題。

Deep Research在Agentic AI中並不複雜,真實Token量會更高

我們認為Deep Research是「Agentic化」的Search產品,上文以Deep Research這一廣泛推出的Agentic AI產品為錨點,分析得到其Token消耗量約是一次聊天對話的15-50倍。現在將範圍擴大到廣泛的Agentic AI產品。

Deep Research任務只涉及搜索、思考、總結三項任務,普遍的Agentic AI會有更高的Token消耗量。Deep Research只涉及搜索、思考、總結三項任務,使用的Agent並不複雜,從時間上來看,作為最先嚐試應用的多Agent產品,Deep Research存在相對固定的範式和易定義的流程,其他場景可能會涉及更多的流程、更復雜的功能。根據前文的分析,增加Token量是提升效果的最重要方法之一,複雜場景下對更多工具的調用也會進一步增加Token量,因此我們預計隨着Agent的迭代,Token量的增加將更為顯著,可能從單次聊天Token量的15-50倍增加到100倍以上。

我們認為未來Token量增長不是線性的,可能是指數增長。在前文對Deep Research的Token量化部分,我們得到Token量≈(2*n+2)*m+2的估算公式,n是搜索Agent數量,m是迭代次數。然而在更復雜的場景中,子Agent可能需要繼續拆分任務,然后將子任務分配給更低層次的Agent進行執行。在這種情況下,nm不再是n*m的關係,將拓展為n^m的關係,因而未來Token量的增長可能會是指數增長,現在對Token量的判斷仍是低估的。

Token量的增長會帶來算力需求的非線性增長

算力需求增長遠高於Token量的增長。GTC 2025大會中,黃仁勛提到:「Token量的增長與算力需求的增長並非1:1的關係,Token量增長10倍,所需的算力量的增長可能增長百倍。」這是因為推理過程變得更加複雜,計算Token數量增長10倍,在同樣的算力條件下,計算的時間也將增長。若模型響應時間太久,則會有失去用户的風險。如果要求模型具備交互性與實時性,則需要將計算速度提升10倍。那麼10倍Token量的增長與10倍的計算速度將帶來100倍算力量需求的增長。

延迟和吞吐量是推理過程中兩個重要指標

為理解算力需求Token增長的關係,我們需要理解推理過程的兩個關鍵指標,即延迟和吞吐量。在LLM推理過程中有兩個關鍵指標,延迟和吞吐量,兩者之間的權衡是模型推理效率最大化的重要考慮因素之一。這兩個指標是相互關聯的,提高其中一個往往以犧牲另一個為代價。延迟和吞吐量分別決定了用户對於模型/AI應用的使用體驗(若延迟過高,則會失去用户)與模型/AI應用廠商的總任務處理量,從而決定了模型/AI應用廠商產品的商業化情況。下面我們來看兩個指標是如何影響到模型/AI應用廠商能力的。

1、吞吐量Throughput,單位:query/s指的是完成一個特定任務的速率(The Rate of completing a specific action),也可以理解為每秒可以處理的查詢數。優化目標是最大化單位時間內批處理的任務量,可以理解為在有限的硬件條件下「服務更多的用户」,提高整座「AI工廠」的吞吐量,以獲得更高收益。

2、延迟(Latency,單位:s/token):衡量生成每個Token所需的時間,這個指標反映了系統生成下一個Token需要多少秒,直接決定了用户主觀感受到的應用程序響應速度,優化目標是儘可能降低延迟,從而提升用户體驗,從而留住用户。根據Mistral AI提供的參考,每分鍾250個字的生成速度基本滿足普通人的平均閲讀速度。

從延迟的計算公式來看,主要受到三個指標影響,分別為:

1TTFTTime To First Token):從接收到輸入到生成第一個輸出 Token 的時間,主要涉及 prompt 處理、模型加載、KV Cache 初始化等,該指標對用户感知體驗影響極大,特別是在線互動應用。TTFT 越小,用户響應越快,主要影響因素包括GPU並行性能、模型並行策略(如張量並行)、網絡傳輸和框架開銷。該指標可通過更高性能硬件、減少prompt Token 數、優化初始化流程來提升。

2TPOTTime Per Output Token):表示解碼階段生成每個后續輸出Token所需的平均時間,在離線推理或長文本生成場景中特別關鍵,主要受到模型計算複雜度、內存帶寬、KV Cache 的訪問效率等因素的影響,可以通過量化優化、使用高效 Attention(如 Flash Attention)、更快的內存訪問與調度策略提升。

3N:生成的輸出 Token 的數量,Latency與N呈線性關係,N越大,延迟越長。TPS(每秒生成的Tokens數量)=N/Latency。

為什麼延迟和吞吐量互相制約?中間變量——批處理

為提升模型的吞吐量,需要進行批處理(batching),即批量處理很多用户的請求。批處理指的是將多個樣本一起組成一個「批次」(batch),然后在一次運算中一次性處理整個批次的數據。這一方式與「逐個處理單個樣本」的在線處理方式不同,它可顯著提升計算效率與系統吞吐量,因為GPU擅長大矩陣並行計算,一次大批量計算比多次小批量效率更高。

延迟隨批量大小線性增長,吞吐量隨批量增長呈現先增后緩的趨勢。當批量增大時,變動開銷「」線性增加(TTFT增加),導致單次請求的等待時間變長。吞吐量隨批量增大呈現先增后緩的趨勢,小批量時,固定開銷佔比高,吞吐量低;隨着批大小提升,固定開銷攤薄,吞吐量上升;達到某個臨界點后,批量繼續增大,每次增加帶來的額外計算時間與攤薄固定開銷的增益相當,吞吐量趨於飽和。延迟與批量呈正比關係,吞吐量與批量呈正比關係,因此吞吐量與延迟之間存在正比關係,想要達到更高吞吐率,通常會犧牲用户等待時間;反之,追求極低延迟又可能導致資源利用率下降,所以需要在小延迟與高吞吐之間尋找平衡點。

模型廠商的帕累托最優需要追求「量價」的平衡

對模型/AI應用廠商進行「量價拆分」,完成用户任務的能力即產品性能,決定了AI服務的價格;服務用户數量決定了AI服務的數量。

1) 一方面,模型/AI應用廠商想要為單個用户更好更快的解決問題,「更快」需要降低延迟,「更好」需要使用更加複雜的推理模型,還可能需要調用外部工具甚至多Agent的協同,給單用户的單任務提供更多Token,所以在用户可承受的最大延迟下,每用户的Token量有一個上限

2) 另一方面,模型/AI應用廠商還想要在有限的硬件基礎設施條件下服務更多的用户,提升服務的數量(吞吐量/ throughput)。

模型/AI應用廠商的收益受到以上兩個因素的共同影響,但是兩個因素是相互衝突的,因為總體硬件是有限的。

考慮模型/AI應用廠商Token經濟學的「帕累托最優」問題,模型/AI應用廠商需要追求用户使用量與AI服務質量之間的平衡,實現收益的最大化。下圖展示了模型/AI應用廠商在量價平面中的權衡問題,橫軸為TPS/User(Token per second for 1 user),即單位時間為每個用户生成的Token量,可以理解為,在用户可接受的標準時延下,可為用户單任務提供的最大Token量決定了AI服務的性能與質量,從而決定價格。縱軸為TPS/MW(在固定硬件條件下每秒生成的Tokens),可以理解為吞吐量(throughput),即模型/AI應用廠商可以同時支持的任務數或用户數。模型/AI應用廠商為實現帕累托最優,需要在曲線上找到一個點,使其與縱軸橫軸形成的矩形面積達到最大。

增加硬件是實現模型最優收益邊界前移的重要方式

根據以上分析我們可以得知,當Tokens增加10倍時,若在原有的算力條件下,想要保證原有的吞吐量,則時延必然增大,這將面臨失去用户的風險。以DeepSeek為例,雖然其具有較大的價格優勢,由於其算力硬件相對缺乏,爲了用有限的推理算力資源來提供低價模型,DeepSeek不得不採用了極大的批處理規模,而放棄了模型影響速度。在DeepSeek官方web端,通常用户等待數秒后,才能收到模型返回的第一個Token。

更多的算力資源使得託管方的模型服務延迟更小,更具優勢。由於DeepSeek開源,用户可以在其他雲服務那里獲得託管的DeepSeek模型服務。其他支持DeepSeek的雲提供商具有更多的算力硬件,微軟Azure的DeepSeek R1服務價格雖比DeepSeek官方高2.5倍,但延迟減少25秒。從圖表中我們可以看出,在幾乎相同的價格水平下, Nebius、Lambda等提供商延迟更低。這導致了DeepSeek官方模型月活躍用户從2月底的6.15億人下降至5月底的4.36億人,下降29%。

實現模型/AI應用廠商收益提升的解決方法包括硬件優化與軟件優化。想要共同推動用户可接受的時延下單用户Token和吞吐量的上限的提升,使得上文所述的帕累託最有曲線向外移動,就需要引入更多的算力硬件,或用更高效的算法。根據2025年3月英偉達GTC大會所示,通過引入Blackwell的更高級的硬件與Dynamo優化算法,可以使得最優的吞吐量邊際曲線向右上方移動,從而使得模型廠商最佳收益提升。

因此我們得到結論,算力需求的增長與Token的增長呈倍數關係。通過以上分析,我們便可以理解為什麼黃仁勛在GTC大會中所述,「Token增長10倍,算力需求增長100倍」。因為隨模型處理的任務越加複雜,Agentic AI的不斷滲透,Token調用量不斷提升,需要用額外的算力來減少因為單任務Token量擴大帶來的時延,即用算力換時間,所以算力需求的增長與Token的增長呈倍數關係。我們認為,隨Agentic AI快速發展帶來Token調用量快速提升,算力需求的提升將會呈倍數放大,我們看好未來推理算力需求空間持續增長。

總結:兩個倍數關係決定未來推理算力需求空間廣闊

未來算力需求中存在兩個倍數關係,即Token調用量隨推理擴展倍數增長,算力需求隨Token增長倍數增長,兩個因素共同決定了推理端未來算力需求廣闊,而目前市場存在較大預期差。

1) 推理和Token調用量之間不是線性關係:以相對流程固定的Agentic AI產品Deep Research為例,根據我們的測算,相對於單次問答,其推理Token量與Agent數量和迭代搜索次數的乘積相關。一般的Agentic AI會有更復雜的流程,多Agent的協作和多工具調用會帶來Token消耗量加速增長。

2) 算力硬件需求與Token的增長之間不是線性關係:Token量增長10倍,所需的算力量的增長可能增長100倍。這是因為推理過程變得更加複雜,計算Token數量增長10倍,在同樣的算力條件下,計算的時間也將增長。用户太久的等待將失去耐心,如果要求模型具備交互性與實時性,則需要將計算速度提升10倍。

上述兩個倍數關係決定了未來隨複雜任務推理的拓展,Agentic AI的不斷滲透,Token調用量將增長10倍以上,而對應的算力硬件需求將增長100倍以上,我們長期看好算力需求的持續快速增長。

產業鏈相關公司:

1、海外算力鏈:PCB相關,銅互聯相關,光模塊光器件光芯片相關。

2、國內算力鏈。

具體公司名單,請見研報原文。

宏觀經濟波動。若宏觀經濟波動,產業變革及新技術的落地節奏或將受到影響,宏觀經濟波動還可能對IT投資產生負面影響,從而導致整體行業增長不及預期。

模型迭代不及預期。若基礎模型能力迭代不及預期,AI 應用功能迭代速度或將放緩,會對大模型訓練算力需求造成不利影響。

AI 商業化進展不及預期。目前大部分 AI 應用尚處於產品化階段,若商業化進展不及預期,會對大模型推理算力需求造成不利影響。

報中涉及到未上市公司和未覆蓋個股內容,均系對其客觀公開信息的整理,並不代表本研究團隊對該公司、該股票的推薦或覆蓋。

研報:《Token推動計算Compute需求:非線形增長》2025年7月17日

謝春生 分析師 S0570519080006 | BQZ938

王浩天 聯繫人 S0570125010006

徐誠偉 聯繫人 S0570125070089

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。