简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

华泰 | 计算机:Token推动算力需求非线性增长

2025-07-18 07:25

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:华泰证券研究所)

Token调用量与算力需求非线性增长

推理和Token调用量之间不是线性关系:从Agentic AI底层来看,推理过程的倍数项包含Agent数和迭代次数,多Agent协作和多工具调用带来Token消耗量倍数增长。Token的增长与算力硬件需求之间也不是线性关系:据黄仁勋在3月份的GTC大会中所述,“Token量增长10倍,所需的算力量的增长可能增长100倍”。这是因为推理过程变得更加复杂,在同样的算力条件下,计算的时间也将增长,如果要求模型具备交互性与实时性,则需要将计算速度提升10倍。我们认为,Agentic AI将带来Token调用量10倍以上增长,从而带来算力需求100倍以上提升。目前市场对于算力需求有较大的预期差,未来算力需求空间广阔。

三条Scaling曲线为算力需求打开空间

目前市场熟知的Scaling law预训练Scaling law,即数据和参数量的增长可以提升模型性能。对预训练Scaling law见顶的担忧导致市场对算力的需求的低估。但我们认为,考虑到后训练Scaling和推理ScalingAI对算力的需求仍有大量空间。推理Scaling的必要性在于提高模型性能,特别是模型在困难问题方面的表现,是通往Agentic AI的重要路径。回顾Grok 4的发展历程,对应了三条Scaling曲线。20252月,Grok 3发布,相比于Grok 2,将预训练阶段的算力扩10倍,实现性能的突破,对应预训练阶段的Scaling law20257月,Grok 4发布,将后训练与推理过程的算力扩大10倍,在推理/测试阶段花费更多时间思考,调用更多算力,例如通过多Agent共同思考,商议问题结果,进一步在HLE测评集上实现突破,对应后训练与推理过程的Scaling law

Token调用量随推理扩展呈倍数增长

GTC 2025大会中,黄仁勋多次提到了“Agentic AI”,理解Agentic AI才能理解大会中Token量大幅增长的结论。我们认为Deep Research是“Agentic化”的AI Search,是研究Agentic AI合适的抓手。我们从Deep Research的底层系统设计入手,分析得出Token量增长源于多Agent和多工具调用,并基于系统运行流程对Token增量进行量化。根据我们的测算,Deep ResearchToken消耗可能接近单次聊天的50倍。对于比Deep Research更复杂的一般Agentic AIToken增长量会更高。

AI算力需求随Token增长呈倍数增长

推理过程中存在延迟与吞吐量两个重要指标,两个指标相互制约,分别决定了用户对于模型/AI应用的使用体验(若延迟过高,则会失去用户)与模型/AI应用厂商的总任务处理量,对应AI服务的量价关系,从而决定了AI服务的商业化。考虑模型/AI应用厂商Token经济学的“帕累托最优”问题,则需要追求用户使用量与AI服务质量之间的平衡,而想要扩大最优边界,则需要增加算力硬件。随着推理过程变得更加复杂,在同样的算力条件下计算的时间也将增长。用户太久的等待将失去耐心,如果要求模型具备交互性与实时性,则需要用额外的算力来减少因为单任务Token量扩大带来的时延,即用算力换时间,所以算力需求的增长与Token的增长呈倍数关系。

风险提示:宏观经济波动,模型迭代不及预期,AI商业化进展不及预期。

New Scaling:不止于预训练,三条Scaling推动算力需求增长

目前广泛熟知的Scaling law是预训练Scaling law,市场认为预训练Scaling law可能已经见顶。但我们认为,考虑到后训练Scaling和Test-time Scaling(即推理Scaling),AI对算力的需求仍有大量空间。

从三条Scaling law的差异看为什么算力需求将继续增长

预训练和后训练Scaling属于训练阶段,推理Scaling属于推理阶段:

1) 预训练Scaling,性能和数据、参数量相关:OpenAI在2020年发现模型性能与数据、模型参数量、计算量呈幂函数关系。由于Transformer模型中计算量(C)和模型参数量(N)、数据集大小(D)之间存在 C≈6ND 的近似关系,所以可以简单理解为通过增加数据量和模型参数量能够提高性能。DeepMind在2022年进一步补充,得到的结论为,为了使模型达到最佳性能,模型参数量应与训练集的大小成等比例扩张。

2) 后训练Scaling,利用微调等技术提高模型能力和领域特异性:预训练模型的性能可以通过微调、蒸馏、强化学习、最佳n采样、搜索等方式进一步提高。后训练对算力的需求主要体现在基于预训练模型的衍生模型开发中,流行的开源模型可能拥有数百甚至数千个衍生模型。根据NVIDIA 252在官网发布文章“How Scaling Laws Drive Smarter, More Powerful AI”中的估计,为各种用例开发衍生模型所需的计算量可能比预训练原始基础模型多30倍左右。

3) 推理Scaling,性能与推理时间相关:通过增长模型的推理时间,模型会在推理过程中消耗额外的计算量,推理出多个中间答案并综合得到最终结果。相关技术包含思维链、多数投票采样和搜索。根据NVIDIA在上文同篇文章的估计,对于高难度的查询,所需计算量很容易达到传统AI模型单次推理的100倍以上。

推理Scaling的必要性和算力消耗量化

推理Scaling能大幅提高模型回答困难问题能力,是通往Agentic AI的重要路径。

1) 预训练受到训练数据的约束:根据预训练Scaling law的量化公式,通过预训练提升模型性能需要模型参数量和数据成比例扩张。但根据Epoch AI 2024年7月的论文《Will we run out of data? Limits of LLM scaling based on human-generated data》 villalobos(2024),原始数据的扩张将难以支撑AI大模型发展的速度,在2026-2032年之间的某个时间点,数据存量将耗尽。

2) 推理Scaling能提高模型性能,特别是困难问题方面:根据OpenAI o1报告,增加推理时间可以快速提升模型性能,在预训练需要的数据量受限的情况下,推理Scaling是提升模型性能的可行路径。推理模型在困难问题上相对传统模型有更显著效果提升,以Humanity’s Last Exam(HLE),Phan(2025)测试为例,HLE旨在成为AI测试基准中覆盖广泛学科的终极封闭式学术基准,包含2500道高难度问题。在HLE测试中推理模型的平均通过率为14%,远远高于传统模型的5%。

3) 推理Scaling是通往Agentic AI的重要路径。相对于简单聊天,Agentic AI有更复杂的任务流程,需要调用不同工具。推理Scaling使模型能够对复杂且开放式的用户查询提供合理、实用且更准确的相响应,这些能力对于Agentic AI所需要的详细、多步骤推理任务至关重要。

推理模型的Token消耗可能是传统模型的10倍左右。根据《Humanity’s Last Exam》 Phan(2025)中的测算,在HLE任务中,推理模型为了实现性能提升,需要生成比非推理模型多得多的Token。以数学任务为例,推理模型的平均消耗超过6000 Token,而非推理模型的Token消耗不超过500 Token,因此推理模型的Token消耗可能是传统模型的10倍左右。

Grok系列模型的发展对应了三条Scaling曲线

Grok系列模型发展历程对应三条Scaling曲线。2025年2月,Grok 3发布,相比于Grok 2,Grok 3将预训练阶段的算力扩大10倍,实现性能的突破,对应预训练阶段的Scaling law。2025年7月10日,Grok 4发布,将后训练与推理过程的算力扩大10倍,实现了推理能力的提升,在各基础测评中领先,对应后训练与推理过程的Scaling law。

Grok 4证明了推理阶段Scaling的有效性,HLE测评集上实现突破主要源于推理环节算力的提升。Grok 4进一步在HLE测评集上实现突破,在有工具调用的推理下,Grok 4在HLE测评中评分达到38.6%,相较于OpenAI o3的24.9%、Gemini 2.5 Pro的26.9%实现突破;Grok Heavy模型通过在推理/测试阶段花费更多时间思考,调用更多算力,例如通过多Agent共同思考,商议问题结果,HLE分数达到44.4%;若在推理阶段进一步提升算力,HLE的分数最高可提升到50.7%。Grok 4在HLE上的测评结果证明了推理Scaling的有效性。

从Deep Research看Agentic对Token量的影响

GTC 2025大会中,黄仁勋多次提到了Agentic AI,理解Agentic AI,才能理解大会中Token量大幅增长的结论。虽然Agent的概念早已不再陌生,但值得强调的是,Agentic AI和狭义的Agent存在差异。在此基础上,我们认为Deep Research是“Agentic化”的AI Search,具备Agentic的共性,25年以来,无论是AI Search还是Deep Research都在引起越来越多的关注,因此本部分希望以Deep Research为研究Agentic AI的抓手,从系统设计入手,自底向上的分析Token量的变化,最后拓展到广泛的Agentic AI场景,对Token量变动进行量化。

Agentic AI与狭义AI Agent存在差异:狭义的AIAgent是单流程的多工具调用,Agentic AI涉及多流程多工具调用。狭义的AI Agent是让为了完成特定任务而设计的单个AI组件,单个AI Agent按时间顺序调用不同工具,最终完成任务。而Agentic AI需要协调多个AI Agent以完成更复杂的任务,在这个任务中,不同的Agent在不同时间范围内完成不同任务,任务更加复杂,涉及更多的工具调用。下图的工作流程中,AI Agent是线性的工作流,而Agentic AI是网状的。

Deep Research是研究Agentic AI的重要抓手之一

AI Search正在成为Token消耗的重要组成。25Q1起,Google的Token量曲线上扬,25年3月Token量达到308万亿,环比增长81%。在Gemini月活与ChatGPT有较大差距的情况下,Google推理Token量接近微软6倍的主要原因很可能来自市占率第一的搜索业务,Google管理层在25年一季度的电话会中也将Token量的增长主要归因于AI Search产品AI Overview。

Deep Research产品是AISearchAgent路径拓展,被各家AI厂商竞相推出。2024年12月,Google在发布Gemini 2.0的同时发布了Deep Research功能,可以通过持续搜索并总结最终生成综合性报告,这是首个商业化的Deep Research产品,Google称其“第一次在Gemini上融合多个Agent功能”。Google首次展示了Deep Research的产品形态,而OpenAI则进一步量化了产品能力。2025年2月,OpenAI推出基于OpenAI o3模型的Deep Research功能,在HLE任务中,Deep Research达到26.6%的通过率,相对此前最高的模型通过率提高了一倍。此后,Deep Research功能被各家厂商相继推出,如Perplexity(2月)、xAI(2月)、Anthropic(4月)、微软(7月)等。

Deep Research的Token多在哪?基于底层系统设计视角的分析

由于OpenAI、Google未公布其Deep Research系统架构,本部分以Anthropic的Deep Research系统设计为例,从底层系统设计角度看Token量的增长原因。

Deep Research系统将任务分配给多个Agent,带来成倍的Token消耗。在基于多Agent设计的Deep Research系统中,对于一个用户请求,作为主导的Lead Agent的工作是任务编排,将问题分成多个子查询交给Search Subagent,对于返回的搜索结果,需要对结果进行分析总结,并随时调用Citiations Subagent生成引用。相对于单次问答,这个过程包含任务编排+N查询搜索+总结+引用,任务的复杂度有成倍提升。

更进一步看底层实现,搜索的过程是迭代式的,因而Token量进一步增加。细化到整体工作流,Lead Agent在得到N个查询搜索结果后,并非直接将结果总结进行输出,还需要对结果进行判断,如果认为还需要进一步搜索,则将目前搜索到的内容作为输入,进行循环迭代,直到判断程序认为结果符合要求。因此,上文中的任务编排+N*查询搜索+总结+引用将被进一步改写为任务编排+(N*查询搜索)*M次循环迭代+总结+引用。

从Search到Research,量化Agentic的Token影响

Anthropic Deep ResearchToken消耗达到聊天的15倍。根据Anthropic的数据,Agent(这里是指执行单一任务的AI程序)比聊天交互多消耗4倍的Token,基于多Agent构建的Deep Research则比聊天交互多消耗15倍Token。

15倍消耗量从何而来?

1) 测算依据:如下图所示,假设每次思考和搜索的过程消耗的Token量和单次聊天交互相近,得到Deep Research过程消耗Token量约为聊天交互的 (2*n+2)*m+2 倍,其中n为每次循环创建的Search Agent数量,m为迭代循环的次数。

2) 假设依据:根据Anthropic,简单的事实调查大约需要1个Agent调用3-10个工具,直接比较需要2-4个Agent调用10-15个工具,复杂研究需要10个以上Agent合理调用工具。假设创建2个Search Agent,迭代2轮,则Token的消耗量约为14倍。

Google/OpenAIDeep ResearchToken消耗量可能接近聊天的50倍。Google和OpenAI未公开Token消耗量情况,我们通过两种方案对Token消耗量进行估计。

1) 基于上下文窗口大小:为了避免过多信息输入以及无休止的迭代搜索带来计算和存储压力,设计者往往通过设定上下文窗口大小对输入信息进行限制,对于超出限制的部分直接采用截断处理。Anthropic Deep Research的上下文窗口设定为20万Token,Google Deep Research的上下文窗口为100万Token,从而Google的Token消耗可能也会接近Anthropic的5倍,对应接近50倍的聊天Token消耗。

2) 基于输出时间和长度:Deep Research单次回答问题推理时长一般在5-10min,输出文字长度与参考网页数量一般为单次交互的几十倍以上,据此我们假设单次 Deep Research的Token数为单次交互的50倍。

Token量的增长是否必要?是,Token量增长是效果提升的关键。Anthropic分析了模型在BrowseComp测试(评价模型搜索难以查找信息的能力)中的效果,得出的结论是三个因素解释了95%的性能差异:Token消耗量、工具调用次数和模型选择,其中Token消耗量可以解释80%的性能差异。OpenAI在25年2月发布的Deep Research报告指出,模型浏览和思考的内容越多,它的表现就越好,因此,给模型足够的思考时间很重要,而浏览和思考过程都是Token的消耗过程。

Agent使用和多工具调用能进一步提升Grok 4HLE测试中的结果。根据Scientific American在25年7月10日对Grok 4的报道,在HLE测试中,Grok 4本身的得分为25.4%。但如果使用工具(例如代码执行或如Web搜索的外部辅助),它的得分会达到38.6%。使用Grok 4 Heavy版本得分跃升至 44.4%,该版本使用多个AI Agent来解决问题。

Deep Research在Agentic AI中并不复杂,真实Token量会更高

我们认为Deep Research是“Agentic化”的Search产品,上文以Deep Research这一广泛推出的Agentic AI产品为锚点,分析得到其Token消耗量约是一次聊天对话的15-50倍。现在将范围扩大到广泛的Agentic AI产品。

Deep Research任务只涉及搜索、思考、总结三项任务,普遍的Agentic AI会有更高的Token消耗量。Deep Research只涉及搜索、思考、总结三项任务,使用的Agent并不复杂,从时间上来看,作为最先尝试应用的多Agent产品,Deep Research存在相对固定的范式和易定义的流程,其他场景可能会涉及更多的流程、更复杂的功能。根据前文的分析,增加Token量是提升效果的最重要方法之一,复杂场景下对更多工具的调用也会进一步增加Token量,因此我们预计随着Agent的迭代,Token量的增加将更为显著,可能从单次聊天Token量的15-50倍增加到100倍以上。

我们认为未来Token量增长不是线性的,可能是指数增长。在前文对Deep Research的Token量化部分,我们得到Token量≈(2*n+2)*m+2的估算公式,n是搜索Agent数量,m是迭代次数。然而在更复杂的场景中,子Agent可能需要继续拆分任务,然后将子任务分配给更低层次的Agent进行执行。在这种情况下,nm不再是n*m的关系,将拓展为n^m的关系,因而未来Token量的增长可能会是指数增长,现在对Token量的判断仍是低估的。

Token量的增长会带来算力需求的非线性增长

算力需求增长远高于Token量的增长。GTC 2025大会中,黄仁勋提到:“Token量的增长与算力需求的增长并非1:1的关系,Token量增长10倍,所需的算力量的增长可能增长百倍。”这是因为推理过程变得更加复杂,计算Token数量增长10倍,在同样的算力条件下,计算的时间也将增长。若模型响应时间太久,则会有失去用户的风险。如果要求模型具备交互性与实时性,则需要将计算速度提升10倍。那么10倍Token量的增长与10倍的计算速度将带来100倍算力量需求的增长。

延迟和吞吐量是推理过程中两个重要指标

为理解算力需求Token增长的关系,我们需要理解推理过程的两个关键指标,即延迟和吞吐量。在LLM推理过程中有两个关键指标,延迟和吞吐量,两者之间的权衡是模型推理效率最大化的重要考虑因素之一。这两个指标是相互关联的,提高其中一个往往以牺牲另一个为代价。延迟和吞吐量分别决定了用户对于模型/AI应用的使用体验(若延迟过高,则会失去用户)与模型/AI应用厂商的总任务处理量,从而决定了模型/AI应用厂商产品的商业化情况。下面我们来看两个指标是如何影响到模型/AI应用厂商能力的。

1、吞吐量Throughput,单位:query/s指的是完成一个特定任务的速率(The Rate of completing a specific action),也可以理解为每秒可以处理的查询数。优化目标是最大化单位时间内批处理的任务量,可以理解为在有限的硬件条件下“服务更多的用户”,提高整座“AI工厂”的吞吐量,以获得更高收益。

2、延迟(Latency,单位:s/token):衡量生成每个Token所需的时间,这个指标反映了系统生成下一个Token需要多少秒,直接决定了用户主观感受到的应用程序响应速度,优化目标是尽可能降低延迟,从而提升用户体验,从而留住用户。根据Mistral AI提供的参考,每分钟250个字的生成速度基本满足普通人的平均阅读速度。

从延迟的计算公式来看,主要受到三个指标影响,分别为:

1TTFTTime To First Token):从接收到输入到生成第一个输出 Token 的时间,主要涉及 prompt 处理、模型加载、KV Cache 初始化等,该指标对用户感知体验影响极大,特别是在线互动应用。TTFT 越小,用户响应越快,主要影响因素包括GPU并行性能、模型并行策略(如张量并行)、网络传输和框架开销。该指标可通过更高性能硬件、减少prompt Token 数、优化初始化流程来提升。

2TPOTTime Per Output Token):表示解码阶段生成每个后续输出Token所需的平均时间,在离线推理或长文本生成场景中特别关键,主要受到模型计算复杂度、内存带宽、KV Cache 的访问效率等因素的影响,可以通过量化优化、使用高效 Attention(如 Flash Attention)、更快的内存访问与调度策略提升。

3N:生成的输出 Token 的数量,Latency与N呈线性关系,N越大,延迟越长。TPS(每秒生成的Tokens数量)=N/Latency。

为什么延迟和吞吐量互相制约?中间变量——批处理

为提升模型的吞吐量,需要进行批处理(batching),即批量处理很多用户的请求。批处理指的是将多个样本一起组成一个“批次”(batch),然后在一次运算中一次性处理整个批次的数据。这一方式与“逐个处理单个样本”的在线处理方式不同,它可显著提升计算效率与系统吞吐量,因为GPU擅长大矩阵并行计算,一次大批量计算比多次小批量效率更高。

延迟随批量大小线性增长,吞吐量随批量增长呈现先增后缓的趋势。当批量增大时,变动开销“”线性增加(TTFT增加),导致单次请求的等待时间变长。吞吐量随批量增大呈现先增后缓的趋势,小批量时,固定开销占比高,吞吐量低;随着批大小提升,固定开销摊薄,吞吐量上升;达到某个临界点后,批量继续增大,每次增加带来的额外计算时间与摊薄固定开销的增益相当,吞吐量趋于饱和。延迟与批量呈正比关系,吞吐量与批量呈正比关系,因此吞吐量与延迟之间存在正比关系,想要达到更高吞吐率,通常会牺牲用户等待时间;反之,追求极低延迟又可能导致资源利用率下降,所以需要在小延迟与高吞吐之间寻找平衡点。

模型厂商的帕累托最优需要追求“量价”的平衡

对模型/AI应用厂商进行“量价拆分”,完成用户任务的能力即产品性能,决定了AI服务的价格;服务用户数量决定了AI服务的数量。

1) 一方面,模型/AI应用厂商想要为单个用户更好更快的解决问题,“更快”需要降低延迟,“更好”需要使用更加复杂的推理模型,还可能需要调用外部工具甚至多Agent的协同,给单用户的单任务提供更多Token,所以在用户可承受的最大延迟下,每用户的Token量有一个上限

2) 另一方面,模型/AI应用厂商还想要在有限的硬件基础设施条件下服务更多的用户,提升服务的数量(吞吐量/ throughput)。

模型/AI应用厂商的收益受到以上两个因素的共同影响,但是两个因素是相互冲突的,因为总体硬件是有限的。

考虑模型/AI应用厂商Token经济学的“帕累托最优”问题,模型/AI应用厂商需要追求用户使用量与AI服务质量之间的平衡,实现收益的最大化。下图展示了模型/AI应用厂商在量价平面中的权衡问题,横轴为TPS/User(Token per second for 1 user),即单位时间为每个用户生成的Token量,可以理解为,在用户可接受的标准时延下,可为用户单任务提供的最大Token量决定了AI服务的性能与质量,从而决定价格。纵轴为TPS/MW(在固定硬件条件下每秒生成的Tokens),可以理解为吞吐量(throughput),即模型/AI应用厂商可以同时支持的任务数或用户数。模型/AI应用厂商为实现帕累托最优,需要在曲线上找到一个点,使其与纵轴横轴形成的矩形面积达到最大。

增加硬件是实现模型最优收益边界前移的重要方式

根据以上分析我们可以得知,当Tokens增加10倍时,若在原有的算力条件下,想要保证原有的吞吐量,则时延必然增大,这将面临失去用户的风险。以DeepSeek为例,虽然其具有较大的价格优势,由于其算力硬件相对缺乏,为了用有限的推理算力资源来提供低价模型,DeepSeek不得不采用了极大的批处理规模,而放弃了模型影响速度。在DeepSeek官方web端,通常用户等待数秒后,才能收到模型返回的第一个Token。

更多的算力资源使得托管方的模型服务延迟更小,更具优势。由于DeepSeek开源,用户可以在其他云服务那里获得托管的DeepSeek模型服务。其他支持DeepSeek的云提供商具有更多的算力硬件,微软Azure的DeepSeek R1服务价格虽比DeepSeek官方高2.5倍,但延迟减少25秒。从图表中我们可以看出,在几乎相同的价格水平下, Nebius、Lambda等提供商延迟更低。这导致了DeepSeek官方模型月活跃用户从2月底的6.15亿人下降至5月底的4.36亿人,下降29%。

实现模型/AI应用厂商收益提升的解决方法包括硬件优化与软件优化。想要共同推动用户可接受的时延下单用户Token和吞吐量的上限的提升,使得上文所述的帕累托最有曲线向外移动,就需要引入更多的算力硬件,或用更高效的算法。根据2025年3月英伟达GTC大会所示,通过引入Blackwell的更高级的硬件与Dynamo优化算法,可以使得最优的吞吐量边际曲线向右上方移动,从而使得模型厂商最佳收益提升。

因此我们得到结论,算力需求的增长与Token的增长呈倍数关系。通过以上分析,我们便可以理解为什么黄仁勋在GTC大会中所述,“Token增长10倍,算力需求增长100倍”。因为随模型处理的任务越加复杂,Agentic AI的不断渗透,Token调用量不断提升,需要用额外的算力来减少因为单任务Token量扩大带来的时延,即用算力换时间,所以算力需求的增长与Token的增长呈倍数关系。我们认为,随Agentic AI快速发展带来Token调用量快速提升,算力需求的提升将会呈倍数放大,我们看好未来推理算力需求空间持续增长。

总结:两个倍数关系决定未来推理算力需求空间广阔

未来算力需求中存在两个倍数关系,即Token调用量随推理扩展倍数增长,算力需求随Token增长倍数增长,两个因素共同决定了推理端未来算力需求广阔,而目前市场存在较大预期差。

1) 推理和Token调用量之间不是线性关系:以相对流程固定的Agentic AI产品Deep Research为例,根据我们的测算,相对于单次问答,其推理Token量与Agent数量和迭代搜索次数的乘积相关。一般的Agentic AI会有更复杂的流程,多Agent的协作和多工具调用会带来Token消耗量加速增长。

2) 算力硬件需求与Token的增长之间不是线性关系:Token量增长10倍,所需的算力量的增长可能增长100倍。这是因为推理过程变得更加复杂,计算Token数量增长10倍,在同样的算力条件下,计算的时间也将增长。用户太久的等待将失去耐心,如果要求模型具备交互性与实时性,则需要将计算速度提升10倍。

上述两个倍数关系决定了未来随复杂任务推理的拓展,Agentic AI的不断渗透,Token调用量将增长10倍以上,而对应的算力硬件需求将增长100倍以上,我们长期看好算力需求的持续快速增长。

产业链相关公司:

1、海外算力链:PCB相关,铜互联相关,光模块光器件光芯片相关。

2、国内算力链。

具体公司名单,请见研报原文。

宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对IT投资产生负面影响,从而导致整体行业增长不及预期。

模型迭代不及预期。若基础模型能力迭代不及预期,AI 应用功能迭代速度或将放缓,会对大模型训练算力需求造成不利影响。

AI 商业化进展不及预期。目前大部分 AI 应用尚处于产品化阶段,若商业化进展不及预期,会对大模型推理算力需求造成不利影响。

报中涉及到未上市公司和未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

研报:《Token推动计算Compute需求:非线形增长》2025年7月17日

谢春生 分析师 S0570519080006 | BQZ938

王浩天 联系人 S0570125010006

徐诚伟 联系人 S0570125070089

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。