简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

太平洋计算机周报(20250707-20250713):Grok 4发布,模型底座能力更近一步

2025-07-15 23:25

(来源:配置计算机首选)

摘要

行情回顾:本周(2025.7.7-2025.7.11)申万计算机行业指数上涨3.22%,在31个申万一级行业中排名第6位。截至本周五(7月11日),计算机行业指数与较年初上涨9.75%,跑赢沪深300指数7.72pct。

7月10日,xAI发布新一代大模型Grok 4系列。Grok 4系列包括Grok 4和Grok 4 Heavy两个版本,Grok 4为单智能体模型,Grok 4 Heavy为多智能体的升级版,可支持4个agent同时工作。Grok 4系列推理能力大幅提升,在多个基准测试中刷新行业SOTA。

Grok 4系列在各项专业学科基准测试中表现大幅领先,在知识能力上已经超越研究生水平。在HLE(Humanities Last Exam,由各学科专家编写的高难度学术测试集)测试中,在使用工具的情况下,Grok 4 的成绩为 38.6%,Grok 4 Heavy 的成绩为44.4%,大幅超越o3和Gemini 2.5 Pro。如果在推理阶段增加算力投入并使用工具,则分数进一步提升至 50.7%。在AIME25、GPQA、HMMT25等其他权威基准测试方面, Grok 4 Heavy均超越其他此前最先进的模型夺冠。

Grok 展现出较强的解决复杂现实任务的能力。在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok 4模拟经营取得的利润是第二名Claude Opus 4的两倍。在游戏领域,Grok-4可以设计和构建视频游戏,包括资源获取、写代码等,研究人员用4个小时制作出一款第一人称射击游戏。此外,Grok 4在生物医药、金融等领域也取得较大突破。

Grok 4性能的大幅提升主要来源于算力投入的大幅增长,以及在训练阶段引入工具使用。Grok 4在xAI建设的20万卡集群Colossus上运行强化学习训练,其训练量是Grok-2的100倍、Grok-3的10倍。Grok 4 Heavy通过提高强化学习阶段的算力投入以提升模型效果。Grok 4特别强调了在后训练过程中原生融入工具,比如在“人类最后考试HLE”上,在后训练中融入工具,不仅比不使用工具能取得更高分数,而且Scaling提升效率也更高。即增加同样的计算资源,工具融入训练能带来更高智能。

投资建议:xAI新发布的模型进一步加强了基座模型能力,有望加速AI应用落地。重点推荐金山办公用友网络赛意信息熵基科技云从科技等,AI应用的发展也会促进基础设施的发展,重点推荐海光信息智微智能、联想集团等。

风险提示: AI技术发展不及预期,市场竞争加剧。

一、摩尔线程和沐曦股份IPO梳理

北京时间7月10日,xAI直播发布新一代大模型——Grok 4系列。Grok 4系列包括Grok 4和Grok 4 Heavy两个版本,Grok 4为单智能体模型,Grok 4 Heavy为多智能体的升级版,可支持4个agent同时工作。Grok 4系列推理能力大幅提升,在多个基准测试中刷新行业SOTA。

Grok为首个在HLE基准测试中突破50%准确率的模型。在HLE(Humanities Last Exam,由各学科专家编写的高难度学术测试集)测试中,在使用工具的情况下,Grok 4 的成绩为 38.6%,Grok 4 Heavy 的成绩进一步提升至44.4%,大幅超越o3和Gemini 2.5 Pro。如果在推理阶段增加算力投入并使用工具,则 HLE 的分数还能进一步提升到 50.7%。

在其他权威基准测试方面,包括 GPQA(研究生级别的 Google 验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛 /在线算法竞赛)、HMMT25(高中生团队数学竞赛)和 USAMO25(美国顶级高中生数学竞赛),Grok 4 Heavy均超越其他此前最先进的模型模型夺冠。 

Grok 展现出较强的解决复杂现实任务的能力。在衡量复杂任务解决能力的商业环境测试Vending-Bench中,Grok-4模拟经营取得的利润是第二名Claude Opus 4的两倍。在游戏领域,Grok-4可以设计和构建视频游戏,包括资源获取、写代码等,研究人员用4个小时制作出一款第一人称射击游戏。此外,Grok 4在生物医药、金融等领域也取得较大突破。

Grok性能的持续提升得益于算力投入的大幅增长。Grok-4在xAI建设的20万卡集群Colossus上运行强化学习训练,其训练量是Grok-2的100倍、Grok-3的10倍。Grok 4 Heavy通过提高强化学习阶段的算力投入以提升模型效果。

Grok 4在后训练过程中融入工具使用,提升性能表现。Grok 4特别强调了在后训练过程中原生融入工具,并通过多项结果对比论证其有效性。比如在“人类最后考试HLE”上,在后训练中融入工具,不仅比不使用工具能取得更高分数,而且Scaling提升效率也更高。即增加同样的计算资源,工具融入训练能带来更高智能。

价格方面,目前Grok-4仅面向付费用户,个人订阅使用Grok 4定价为30美元/月,Grok-4 Heavy版本则需要300美元/月;API定价为输入3美元/百万Tokens,输出15美元/百万Tokens,较o3大约贵50%。

Grok 4在多模态能力方面有待提升,后续将重点改进。Grok 4目前在图像理解和生成上仍落后于OpenAI、Anthropic 等对手,xAI表示,下一代基础模型将强化图像和音频理解,接着是视频生成。后续xAI计划在8月发布代码模型,9月发布多模态智能体,10月发布视频生成模型。

二、 行情回顾

本周申万计算机行业指数上涨3.22%,在31个申万一级行业中排名第6位。截至本周五(7月11日),计算机行业指数与较年初上涨9.75%,跑赢沪深300指数7.72pct。

本周计算机行业涨幅前五的公司分别为普联软件(+44.38%)、大智慧(+42.52%)、上海钢联(+26.62%)、博睿数据(+22.86%)、中船汉光(+22.01%);跌幅前五的公司分别为ST华铭(-16.04%)、*ST汇科(-14.42%)、汇金股份(-12.68%)、税友股份(-8.68%)、正元智慧(-8.07%)。

三、投资建议

xAI新发布的模型进一步加强了基座模型能力,有望加速AI应用落地。重点推荐金山办公、用友网络、赛意信息、熵基科技、云从科技等,AI应用的发展也会促进基础设施的发展,重点推荐海光信息、智微智能、联想集团等。

四、风险提示

AI技术发展不及预期,市场竞争加剧。

报告信息

报告节选自已公开发布研究报告,具体内容及相关风险提示详见完整版报告

证券研究报告:计算机行业周报(20250707-20250713):Grok 4发布,模型底座能力更近一步》

报告发布日期:2025年7月14日

报告发布机构:太平洋证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格

报告作者:

曹   佩 ,SAC 执证号:S1190520080001

王景宜 ,SAC 执证号:S1190523090002

投资评级说明

1、行业评级

看好:预计未来6个月内,行业整体回报高于沪深300指数5%以上;

中性:预计未来6个月内,行业整体回报介于沪深300指数-5%与5%之间;

看淡:预计未来6个月内,行业整体回报低于沪深300指数5%以下。

2、公司评级

买入:预计未来6个月内,个股相对沪深300指数涨幅在15%以上;

增持:预计未来6个月内,个股相对沪深300指数涨幅介于5%与15%之间;

持有:预计未来6个月内,个股相对沪深300指数涨幅介于-5%与5%之间;

减持:预计未来6个月内,个股相对沪深300指数涨幅介于-5%与-15%之间;

卖出:预计未来6个月内,个股相对沪深300指数涨幅低于-15%以下。

太平洋证券股份有限公司(以下简称“我公司”或“太平洋证券”)具备中国证券监督管理委员会核准的证券投资咨询业务资格。本报告仅向与太平洋证券签署服务协议的签约客户发布,为太平洋证券签约客户的专属研究产品,若您并非太平洋证券签约客户,请取消接收、订阅或使用本报告中的任何信息;太平洋证券不会因接收人收到、阅读或关注媒体推送本报告中的内容而视其为太平洋证券的客户。在任何情况下,本报告中的信息或所表述的意见并不构成对任何机构和个人的投资建议,投资者应自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。本报告信息均来源于公开资料,我公司对这些信息的准确性和完整性不作任何保证。负责准备本报告以及撰写本报告的所有研究分析师或工作人员在此保证,本研究报告中关于任何发行商或证券所发表的观点均如实反映研究人员的个人观点。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价或询价。我公司及其雇员对使用本报告及其内容所引发的任何直接或间接损失概不负责。我公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。本报告版权归太平洋证券股份有限公司所有,未经书面许可任何机 构和个人不得以任何形式翻版、复制、刊登。任何人使用本报告,视为同意以上声明。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。