热门资讯> 正文
2025-04-16 09:00
登录新浪财经APP 搜索【信披】查看更多考评等级
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
转自:中邮证券研究所
摘要
Meta LIama 4开源,评测跑分引争议
4月6日,Meta发布了首个基于 MoE 架构模型系列,目前披露了三个模型:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。Llama 4 Behemoth模型尚未发布,仅是预告,但仅就前两款Meta已经称其为“迄今为止最先进的型号,也是同类产品中最好的多模态型号”。在Meta官方发布的信息中可以看到,Llama 4在诸多评测中表现优异,在Lmarena.ai评测中,Llama-4-Maverrick一度攀升至第二名,仅次于Gemini-2.5-Pro。但随后Kcores评测中发现Llama 4模型代码能力极差,同时有Meta内部员工爆料Llama 4训练作弊和针对性优化,甚至有高管在重压之下离职并要求不要在Llama 4技术报告中署名。
OpenAI启动先锋计划,旨在重塑AI模型评分体系
4月9日,OpenAI宣布启动先锋计划(Pioneers Program),旨在推动 AI 在实际用例中的部署。该计划将专注于创建评估模型,设定“优秀模型”的标准,并为构建者提供工具,帮助他们优化自身领域的模型性能。OpenAI认为,我们认为,法律、金融、保险、医疗保健、会计等众多行业都缺乏统一的模型基准测试数据来源,并将致力于开发这些行业的评估方案。
针对幻觉问题,华人团队发现大模型对数线性定律
来自UIUC等高校的华人团队揭示了大型语言模型(LLMs)中事实性幻觉的核心机制,首次将知识遮蔽确定为LLMs幻觉的一个关键驱动因素,并提出了对数线性规律来量化幻觉的发生。基于这一发现,提出了CoDA方法来减轻幻觉,显著提高了模型在多个基准数据集上的准确性。这项研究不仅加深了对LLMs幻觉机制的理解,还为开发更可预测和可控的语言模型提供了新的思路。
豆包团队开源首个多语言代码修复基准 Multi-SWE-bench
4月10日,豆包大模型团队通过官方公众号宣布,首个多语言类SWE数据集Multi-SWE-bench现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。
目录
1. AI重点要闻
1.1 Meta LIama 4开源,评测跑分引争议
1.2 OpenAI启动先锋计划,旨在重塑AI模型评分体系
1.3 针对幻觉问题,华人团队发现大模型对数线性定律
1.4 豆包团队开源首个多语言代码修复基准 Multi-SWE-bench
2. 企业动态
2.1 商汤日日新 SenseNova V6 多模态融合大模型发布
2.2 亚马逊推出全新 AI 语音模型 Nova Sonic
2.3 谷歌发布 Gemini 2.5 Flash AI 模型
3. AI行业洞察
3.1 日本AI初创公司联合大型补习班使用AI挑战东京大学入学考试,英语能力亮眼,数学能力表现欠佳
3.2
IDC:2028年中国AI总投资规模将突破1000亿美元,五年复合增长率达35.2%
4. 技术前沿
4.1 入选ICLR:特定领域仅用5%训练数据,知识准确率提升14%
4.2 DeepCoder-14B-Preview:媲美o3-mini的代码推理模型
5. 风险提示
信息披露
正文
1 AI重点要闻
1.1 Meta LIama 4开源,评测跑分引争议
4月6日,Meta发布了首个基于 MoE 架构模型系列,目前披露了三个模型:Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。Llama 4 Behemoth模型尚未发布,仅是预告,但仅就前两款Meta已经称其为“迄今为止最先进的型号,也是同类产品中最好的多模态型号”。在Meta官方发布的信息中可以看到,Llama 4在诸多评测中表现优异,在Lmarena.ai评测中,Llama-4-Maverrick一度攀升至第二名,仅次于Gemini-2.5-Pro。但随后Kcores评测中发现Llama 4模型代码能力极差,同时有Meta内部员工爆料Llama 4训练作弊和针对性优化,甚至有高管在重压之下离职并要求不要在Llama 4技术报告中署名。
Llama 4 Scout,是16位专家的170亿激活参数的多模态模型,单个H100 GPU 可运行,同类SOTA,并拥有10M上下文窗口;Llama 4 Maverick,128位专家的 170亿激活参数多模态模型,击败GPT-4o和Gemini 2.0 Flash,与DeepSeek-V3 同等代码能力参数只要一半,主打与DeepSeek一样的性价比,单个H100主机即可运行;Llama 4 Behemoth:2万亿参数的超大超强模型,以上二者都由这个模型蒸馏而来;目前还在训练中;多个基准测试超过GPT-4.5、Claude Sonnet 3.7 和Gemini 2.0 Pro。
Meta也披露了Llama 4的训练细节,Llama 4首次使用混合专家MoE架构,在MoE架构中,单个token仅激活总参数的一小部分。MoE架构在训练和推理方面具有更高的计算效率,固定训练FLOP成本情况下质量更高。
Llama 4Maverick模型有17B个激活参数和400B个总参数。他们使用交替的密集层和混合专家(MoE)层来提高推理效率。MoE层使用128位路由(Routed)专家和一位共享专家。每个令牌都会发送给共享专家以及128位路由(Routed)专家之一。因此,虽然所有参数都存储在内存中,但在为这些模型提供服务时,只有总参数的子集被激活。这通过降低模型服务成本和延迟来提高推理效率——Llama 4 Maverick可以在单个H100 DGX主机上运行,以便于部署,也可以通过分布式推理实现最高效率。
Meta同时也提出了后训练策略,与单个模式专家模型相比,该策略不会牺牲性能。在 Llama 4中,研究团队采用了一种不同的方法来改造Llama 4后期训练管道:
轻量级监督微调 (SFT)> 在线强化学习 (RL)> 轻量级直接偏好优化 (DPO)。
一个关键的教训是,SFT和DPO可能会过度约束模型,限制在线强化学习阶段的探索,并导致精度降低,尤其是在推理、编码和数学领域。为了解决这个问题,研究团队使用Llama模型作为评判标准,删除了50%以上被标记为简单的数据,并对剩余的较难数据集进行了轻量级SFT处理。在随后的在线强化学习阶段,通过仔细选择较难的提示,Llama 4实现了性能上的飞跃。此外,研究团队还实施了一种连续的在线强化学习策略,即交替训练模型,然后利用模型不断过滤并只保留中等难度到较高难度的提示。事实证明,这种策略在计算量和准确性的权衡方面非常有利。然后,研究团队采用轻量级DPO来处理与模型响应质量相关的拐角情况,从而有效地在模型的智能性和对话能力之间实现了良好的平衡。流水线架构和带有自适应数据过滤功能的连续在线 RL 策略,最后造就了现在的 LIama 4。
Llama 4模型有着非常长的上下文,以Llama 4 Scout为例,该模型提供了行业领先的100万上下文窗口,经过预训练和后训练,Llama 4 Scout长度为256K,这使基本模型具有高级长度泛化能力,除此之外,在各个测评集上的表现,Llama 4 Scout样样都是新SOTA。
Llama的高性价比也值得关注,不仅模型能力超越同类型其他模型,价格也十分经济。
但同样也是这个测评,引起了对于Llama 4针对性优化的讨论,因为可以看出,在Meta展示的图片下方标注,参与LM Arena测试的Maverick是一个“实验性聊天版本”。而根据官方Llama网站上公布的信息,Meta在LM Arena的测试中所使用的实际上是“针对对话性优化的Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应LM Arena的测试环境和评分标准。
Llama 4模型的编程能力同样引起了广泛的质疑,Kcores测评了使用Llama 4进行Python六边形测试,并宣布Llama 4的该测试失败,根据Kcores成员Karminski-牙医的社交平台表示,Scout小参数模型大概仅接近Grok2的水平,而Mavericks还不如使用DeepSeek-V3-0324,最后结论是不建议使用Llama 4写代码。
1.2 OpenAI启动先锋计划,旨在重塑AI模型评分体系
4月9日,OpenAI宣布启动先锋计划(Pioneers Program),旨在推动 AI 在实际用例中的部署。该计划将专注于创建评估模型,设定“优秀模型”的标准,并为构建者提供工具,帮助他们优化自身领域的模型性能。OpenAI认为,我们认为,法律、金融、保险、医疗保健、会计等众多行业都缺乏统一的模型基准测试数据来源,并将致力于开发这些行业的评估方案。
近日,测试平台Lmarena与Meta的Llama 4 Maverick模型引发的争议凸显了一个问题:如今,人们很难明确区分不同AI模型之间的差异。许多广泛使用的AI基准测试侧重于衡量模型在一些晦涩任务上的表现,例如解决博士级别的数学难题。还有一些基准测试容易被操纵,或者与大多数人的偏好不一致。
除此之外,OpenAI还会开发针对三大行业特定用例的定制化微调模型,OpenAI邀请一些初创公司参与该项目,这些公司将有机会与我们的团队合作,利用强化微调(RFT)(一种模型定制技术,可以针对其领域内的特定任务集创建“专家模型”)来改进模型,并针对公司三大主要用例训练定制模型。借助RFT,公司可以更好地解决客户的痛点,并改进模型效率低下的问题。OpenAI的团队将指导企业完成微调流程。之后,企业可以选择如何部署这些模型,这些模型应该能够大规模投入生产。
1.3 针对幻觉问题,华人团队发现大模型对数线性定律
来自UIUC等高校的华人团队揭示了大型语言模型(LLMs)中事实性幻觉的核心机制,首次将知识遮蔽确定为LLMs幻觉的一个关键驱动因素,并提出了对数线性规律来量化幻觉的发生。基于这一发现,提出了CoDA方法来减轻幻觉,显著提高了模型在多个基准数据集上的准确性。这项研究不仅加深了对LLMs幻觉机制的理解,还为开发更可预测和可控的语言模型提供了新的思路。
通过开放源代码的预训练模型Olmo及其公开训练语料库Dolma进行探测实验,结果显示知识频率较高的知识更容易遮蔽其他知识,验证了大模型具备知识遮蔽现象。如询问“朝鲜著名歌手”,模型错误生成“金正恩”(政治家),因“朝鲜”压制“歌手”标记。
在预训练模型上的实验结果表明,幻觉率与知识流行度、长度和模型大小的对数呈线性关系,因此可以提前预测幻觉现象的发生。
研究提出了使用CoDA方法进行缓解,通过遮蔽关键标记计算互信息,识别被遮蔽知识,对比原始与遮蔽输入的输出分布,抑制主导知识偏差。从效果上看,在MemoTrap、NQ-Swap和Overshadow数据集上,事实准确性分别提升13.1%、18.3%和27.9%。
1.4 豆包团队开源首个多语言代码修复基准 Multi-SWE-bench
4月10日,豆包大模型团队通过官方公众号宣布,首个多语言类SWE数据集Multi-SWE-bench现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
Multi-SWE-bench旨在推动自动编程技术从仅能解决单一语言(如Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。SWE-bench是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于GitHub issue,要求模型自动定位并修复Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。Multi-SWE-bench旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发Agent的评估与研究。
2 企业动态
2.1 商汤日日新 SenseNova V6 多模态融合大模型发布
4月10日,商汤发布日日新 SenseNova V6模型多模态融合大模型,具备最长64K思维链、数理分析、多模态深度推理、全局记忆等能力,支持10分钟的视频推理及深度推理。日日新(SenseNova),是商汤科技宣布推出的大模型体系,包括自然语言处理模型“商量”(SenseChat)、文生图模型“秒画”和数字人视频生成平台“如影”(SenseAvatar)等。
作为对照,去年7月5日,商汤科技发布了日日新 SenseNova 5.5大模型体系,并发布国内首个所见即所得模型日日新 5o,交互效果对标GPT-4o。日日新5.5是国内首个正式发布的流式原生多模态交互模型,模型训练基于超过 10TB tokens高质量训练数据,包括大量高质量的人工合成数据,构建了高阶思维链。模型采用混合端云协同架构,拥有6000亿参数,可最大限度发挥云边端协同,达到109.5字/秒的推理速度。
2.2 亚马逊推出全新 AI 语音模型 Nova Sonic
4月9日,亚马逊发布了名为Nova Sonic的新一代生成式AI模型,该模型能够原生处理语音并生成自然流畅的语音。据亚马逊声称,Nova Sonic在速度、语音识别以及对话质量等关键指标的基准测试中,表现可与OpenAI和谷歌的前沿语音模型相媲美。
Nova Sonic通过亚马逊的Bedrock开发者平台提供给用户,该平台是用于构建企业级AI应用的工具,Nova Sonic则通过一个全新的双向流式API进行接入。在一份新闻稿中,亚马逊称Nova Sonic是市场上“最具成本效益”的AI语音模型,其价格比OpenAI的GPT-4o便宜约80%。
2.3 谷歌发布 Gemini 2.5 Flash AI 模型
4月10日,谷歌发布了一款名为 Gemini 2.5 Flash的全新AI模型,该模型注重高效能,并提供强劲的性能。Gemini 2.5 Flash即将登陆谷歌的AI开发平台Vertex AI。谷歌公司表示,该模型具备“动态且可控”的计算能力,开发者能够根据查询请求的复杂程度灵活调整处理时间。谷歌在一篇博客文章中写道:“你可以针对特定需求来调整速度、准确性和成本之间的平衡。这种灵活性对于优化Flash在大批量、成本敏感型应用中的性能至关重要。”当前,旗舰AI模型的成本呈现不断上升的趋势,而像 Gemini 2.5 Flash这样价格较低且性能出色(尽管在准确性上可能稍逊一筹)的模型,为用户提供了更具吸引力的替代选择。Gemini 2.5 Flash是一款“推理”模型,与OpenAI的o3-mini和DeepSeek的R1 类似,意味着其在回答问题时会花费稍长的时间来进行事实核查。
谷歌指出,Gemini 2.5 Flash非常适合用于“高容量”和“实时”的应用场景,例如客户服务和文档解析。谷歌在其博客文章中提到:“这款工作型模型专门针对低延迟和降低成本进行了优化,是响应式虚拟助手和实时总结工具的理想引擎,在大规模应用中,效率是关键。”
3 AI行业洞察
3.1 日本AI初创公司联合大型补习班使用AI挑战东京大学入学考试,英语能力亮眼,数学能力表现欠佳
日本经济新闻、AI 初创公司 Life Prompt联合大型预备学校河合塾对OpenAI的o1模型和DeepSeek的R1模型进行了东京大学入学考试测试,结果发现两个模型均已具备通过日本最难的东京大学理科3类入学考试的能力,两个模型在考察语言能力的英语中取得高分,但在数学中多次出现论证错误等问题。
大学入学共通考试和二次考试合计的理科得分中,o1获得了374/550分,R1 获得了369/550分,两者均超过了东大在3月10日公布的理科3类合格最低分数线(368.7 分)。R1 在理科1类和理科2类的共通考试中未达到合格最低分数线,但在其他科类中,与o1一起包括文科在内都“合格”了。在二次考试中,得分率较高的是英语,o1和R1的得分率均超过了75%。河合塾负责英语的久恒秀雄讲师表示:“几乎没有单词和语法的错误,远远超过了东大考生的平均水平。”
数学方面,虽然最终答案正确的问题较多,但在图形和论证问题上多次出现论述错误和说明不足的情况。理科数学中,o1 在120分满分中得了38分,R1 得了49分。负责数学的香坂季京讲师指出:“这比合格者的平均分要低很多。”
3.2 IDC:2028年中国AI总投资规模将突破1000亿美元,五年复合增长率达35.2%
国际数据公司(IDC)于4月7日发布了2025年V1版IDC《全球人工智能和生成式人工智能支出指南》(IDC Worldwide AI and Generative AI Spending Guide)。数据显示,2024年全球人工智能(AI)IT总投资规模为3158亿美元,并有望在2028年增至8159亿美元,五年复合增长率(CAGR)为32.9%。
除此之外,IDC预测全球生成式AI市场五年复合增长率或达63.8%,到2028 年全球生成式AI市场规模将达2842亿美元,占AI市场投资总规模的35%;中国将继续引领亚太地区人工智能市场发展,占亚太地区人工智能总支出超五成,预计到2028年中国人工智能总投资规模将突破1000亿美元,五年复合增长率为35.2%。
4 技术前沿
4.1 入选ICLR:特定领域仅用5%训练数据,知识准确率提升14%
来自中国科学技术大学MIRA实验室的王杰教授团队提出了一个创新的框架,知识图谱微调(KG-SFT),并利用该框架增强大型语言模型知识操纵能力。实验结果表明,其在多个领域和多种语言的数据集上取得了显著的效果,成功入选ICLR 2025。
现有的监督微调(SFT)数据主要以问答对(Q&A)的形式存在,这使得LLMs难以理解问答对底层知识的关联和逻辑;在低数据和知识密集型领域,高质量的SFT数据稀缺且创建成本高昂。相关工作包括传统的文本数据增强方法(如EDA)、基于语言模型的数据增强方法(如AugGPT和GPT3Mix),以及利用知识图谱增强LLMs的方法(如Think-on-Graph、KGR和KAPING)。
这篇论文提出了一个名为知识图谱驱动的监督微调(KG-SFT)的框架,用于解决LLMs在低数据和知识密集型领域中的知识操纵问题。具体来说,KG-SFT包含三个组件:Extractor、Generator和Detector。
Extractor:
首先,对问答对中的问题、选项和答案进行命名实体识别(NER),提取出实体列表。然后,通过BM25算法对知识图谱中的相关三元组进行排序,保留与问答对最相关的三元组作为候选。最后,检索三种类型的推理路径:从问题实体到问题实体、从选项实体到选项实体、以及从问题实体到答案实体。
Generator:
使用HITS算法计算推理子图中实体和关系的HIST分数,选择分数较高的部分作为重要内容。将选定的三元组输入到LLM(如ChatGPT)中,生成流畅的解释性文本。
Detector:
将生成的解释性文本分割成句子,并与实体列表匹配形成比较三元组。使用NLI模型(如DeBERTa)检测句子级别的知识冲突。如果检测到知识冲突,标记该句子并在必要时重新生成解释。
KG-SFT在所有数据比例和语言设置下均显著优于原始SFT方法。在仅使用5%的训练数据时,KG-SFT在英语场景中提升了近14%,在俄语场景中提升了最高达18.1%。消融实验表明,移除任何KG-SFT组件都会导致性能下降,特别是移除Extractor对性能影响最大,这表明从外部知识图谱中提取推理子图对SFT过程中的知识理解至关重要。KG-SFT在多个领域的实验中表现出色,尤其是在需要复杂推理的领域,如常识多跳推理(Meta QA),KG-SFT的准确率显著高于其他基线方法。
4.2 DeepCoder-14B-Preview:媲美o3-mini的代码推理模型
近日,来自UC Berkeley和Together AI的联合团队,重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。仅14B参数就能媲美o3-mini,开源代码、数据集一应俱全,免费使用。
DeepCoder利用了GRPO+算法: 论文提出了GRPO+算法,这是GRPO算法的稳定版本,结合了DAPO的见解。GRPO+的主要改进包括:
消除熵损失项,以防止熵增长过快导致训练不稳定。
消除KL损失,避免LLM被限制在原始SFT模型的信任区域内。
引入过长的序列过滤技术,以保留长上下文推理能力。
增加上限值,鼓励更多的探索并稳定熵。
DeepCoder还利用了迭代上下文长度扩展: 论文采用了迭代上下文长度扩展技术,能够先在较短的上下文长度上学习有效的思考方式,然后逐步扩展到更长的上下文。具体步骤包括:1)从16K开始,逐步扩展到32K和64K。2) 使用过长的序列过滤技术,避免因生成过长序列而受到惩罚。
论文还引入并开源了verl-pipeline,这是verl的优化扩展版本,通过系统级优化加速端到端的强化学习训练。具体优化包括:1) 采用单次流水线技术,牺牲第一个RL迭代用于采样,然后在下一个迭代中使用该批次进行训练。2) 奖励计算与采样交错进行,减少奖励评估的开销。
从结果上看,DeepCoder-14B-Preview在LiveCodeBench上达到了60.6%的Pass@1准确率,超过了o3-mini-2025-01-031(Low)和o1-2024-12-17的性能。
在Codeforces评测中,DeepCoder-14B-Preview的评分为1936,百分位数为95.3%,超过了大多数模型。
数学能力方面,尽管模型未专门针对数学任务进行训练,但其在AIME2024上的得分为73.8%,比基础模型提高了4.1%。同时,通过系统优化,训练速度提高了2倍。单次流水线技术完全掩盖了训练器和奖励计算的时间,显著减少了训练时间。
5 风险提示
以上内容基于历史数据完成,在政策、市场环境发生变化时存在失效的风险;历史信息不代表未来。
证券研究报告:《Meta LIama 4开源,OpenAI启动先锋计划——AI动态汇总20250414》
对外发布时间:2025年4月14日
分析师:肖承志 SAC编号:S1340524090001
邮箱:xiaochengzhi@cnpsec.com
报告发布机构:中邮证券有限责任公司
法律声明:
本订阅号所载内容所指的证券或金融工具的价格、价值及收入可涨可跌,以往的表现不应作为日后表现的显示及担保。本订阅号所载内容并非投资决策服务,仅供订阅人参考之用,不是也不应被视为出售、购买或认购证券或其它金融工具的要约或要约邀请。订阅人不应单纯依靠本订阅号所载内容而取代自身的独立判断,应根据自身能力自主审慎决策,并自行承担投资风险。本订阅号所载内容不表明其对产品或者服务的风险和收益做出实质性判断或者保证,中邮证券不对使用本订阅号所载内容产生的任何直接或间接损失或与此有关的其他损失承担任何责任。
(转自:中邮证券研究所)