简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

Day4/5:Skywork Deep Research Agent重磅升级!带来更多模态、更高质量和更高效的体验

2025-08-14 10:44

(来源:昆仑万维(维权)

  8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。截至目前,我们已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0模型。

  8月14日,昆仑万维正式发布Skywork Deep Research Agent v2,它是天工超级智能体(Skywork Super Agents)的核心引擎。

  Skywork Deep Research Agent自5月22日上线后,大幅重塑了大模型在AI Office领域的角色,通过skywork.ai平为用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。新一版本的Skywork Deep Research Agent v2将带来以下体验的提升。

欢迎全球用户注册使用skywork.ai:

使用地址

  -全球官网:https://skywork.ai

  -中国官网:https://tiangong.cn

1

推出“多模态深度调研”Agent,首次整合多模态检索、理解和生成

  当前业界的Deep Research Agent产品都是采用搜索并抓取网页文字信息的方式实现,依赖于纯文本检索分析,而互联网上超过一半的关键信息来自图文混排:财报中的曲线、论文里的实验图、社媒上的对比照、方案里的流程图……

  这些多模态信息一旦被忽略,代表着Agent将会丢失大量决策依据,将直接影响Agent产出的交付物质量。为解决这一痛点,昆仑万维Skywork团队推出了业界首个“多模态深度调研”Agent,首次将多模态检索理解和跨模态生成能力完整整合到深度研究工作里。

  该功能已在skywork.ai(https://skywork.ai)上线

欢迎全球用户使用体验

  为实现多模态信息检索这一能力的提升,昆仑万维Skywork团队在以下四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现能力。

  通过以上技术创新,多模态Skywork Deep Research Agent v2把“读文字+看图片”这件看似简单却长期被忽视的事情真正做到位,让研究人员等用户一次拿到信息完整、节奏顺畅、视觉友好的深度报告。

  例如下图(绿色箭头处)所示,天工超级智能体(Skywork Super Agents)在检索信息的过程中,会自动浏览并分析理解重要的图片。

  在对图片做了收集和理解之后,天工超级智能体(Skywork Super Agents)在生成文档时,会充分利用图片中的信息,Agent会在恰当的位置直接将高质量图片作为交付物中的配图(下图绿色箭头处),更直接地传达信息并显著降低读者的理解成本:

  Agent也可能对图片信息进行整合加工,以流畅的方式变成文字或者新的图表(下图绿色箭头处):

2

推出“多模态深度浏览器智能体”,重塑社媒内容分析与数据洞察

  为实现传统浏览器所不具备的低延迟、高回复率、任务完成度高、决策灵活等功能,昆仑万维多模态深度浏览器智能体(Skywork Browser Agent)进行了多项关键自研技术优化,包括升级DOM+ 视觉推理方案、主流平台专项适配、并行搜索(Parallel Search)、多动作规划机制(Multi-Action)、智能筛、人机无缝接管与隐私保护和安全承诺等。

  当前,多模态深度浏览器智能体(Skywork Browser Agent),能够模拟人类浏览与交互方式,革新传统数据采集与分析模式。该智能体可精准高效地完成智能搜索、多模态信息分析与社区内容洞察,有效解决传统浏览器智能体的多项痛点,充分展示了天工智能体在长周期任务(Long-horizon Task)与VLA(Vision-Language Action)任务中的巨大潜力。

  Skywork Browser Agent已经进入内测和邀测阶段,预期将于近期面向全部skywork.ai用户开放。

  多模态深度浏览器智能体(Skywork Browser Agent)具备以下核心功能亮点:

  • 深度多模态内容理解: 不再局限于文本,能够深入分析社交媒体(尤其是小红书、推特以及Instagram等平台),对帖子中的图片、视频内容,以及评论区的情感与观点进行有效筛选和提取,提供更全面的信息洞察。

  • 自动化数据分析与报告: 自动对线上社区内容进行高效的数据分析,并将枯燥的调研分析工作,转化为直观、易懂的可视化报告。

  • 一键式网站部署: 可将抓取的关键图片与分析内容,一键生成并部署为独立的网站,便于成果展示和团队分享。

  • 无缝融入工作流: 能够与信息检索智能体或者PPT、Doc等其他文档智能体联动。当用户撰写报告时,它可以巧妙地检索并推荐相关的图片素材,极大提升办公效率。

  凭借上述能力,Skywork Browser Agent 能自主完成网页的浏览、理解与交互操作,将搜索筛选、信息提炼与可视化网页生成无缝衔接,构建起端到端的自动化流程。其基本工作流程如下:

  我们可以让天工超级智能体(Skywork Super Agents)融合分析小红书中提到的香港旅游攻略,然后为我们生成一个「香港旅游攻略」网页。

  https://skyagent-artifacts.skywork.ai/page/2b9ab18f-4747-4432-8367-a0de83105c2f/index.html

  或者就最近的热点社会事件,让天工超级智能体(Skywork Super Agents)融合近期社交媒体上的时间线和热点讨论内容进行分析,为我们生成一个「梳理年轮争议」的网页。

  https://skyagent-artifacts.skywork.ai/page/1a1dd6db-3947-46f8-87ce-46532d56cd9c/index.html

  最后,我们让天工超级智能体(Skywork Super Agents)去“浏览完”明星在Instagram上的最新动态,帮我们快速整理下周杰伦的近况,并且为粉丝后援会做一个共享信息的应援网站。

  https://skyagent-artifacts.skywork.ai/page/e8d681c4-6b95-415e-96df-3936af6fb642/index.html

3

  加强深度信息搜索和复杂任务执行能力,在多个任务测评集上取得SOTA

  为了进一步加强Agent基础模型的复杂任务执行和信息检索、整理、总结能力,Skywork Deep Research Agent v2引入了多种提升机制,包括高质量数据合成及训练、端到端强化学习、高效的并行推理,以及多智能体自我学习演进系统。新版本的Skywork Deep Research在多项Agent任务评测上超越现有模型,达到行业SOTA水平。

  在权威的搜索评测榜单BrowseComp上,Skywork Deep Research的表现尤为突出。常规模式下,其性能已超越大多数同类产品,正确率达到27.8%。而一旦开启自主研发的“并行思考”(Parallel Thinking)模式,正确率更是跃升至38.7%,刷新了行业SOTA纪录。

  更值得一提的是,在并行思考模式下,Skywork Deep Research的正确率会随着思考时间的增加而持续攀升,这充分展现了自研系统架构的卓越潜力与强大扩展性。

  我们也开通了API预览使用功能,如需体验可访问Skywork官方Github链接进行申请提交:

  https://github.com/SkyworkAI/Skywork-DeepResearch。

  另一方面,Skywork Deep Research Agent在Gaia Test基准上同样取得了SOTA表现,充分验证了其在复杂任务中的综合实力。

  Skywork Deep Research Agent v2即将在skywork.ai的各种Deep Research场景中全量上线。

  新版本Skywork Deep Research的核心技术主要包括以下四个方面:

高质量数据合成及训练

  昆仑万维Skywork团队提出了一套端到端的深度信息问题合成流程,旨在系统化地生成高质量的搜索查询数据集。

  在初期设计阶段,我们制定了严格的搜索问题构造标准,明确定义了高质量搜索问题及其答案应具备的五大核心属性:多样性(覆盖广泛的主题和难度层次)、正确性(答案准确无误)、唯一性(答案具有确定性)、可验证性(答案可通过可靠来源验证)以及挑战性(需要深度推理能力)。

针对这些属性,我们提出了三阶段数据构造方法:

  • 种子实体筛选:我们通过多渠道从互联网收集原始数据,构建初始"种子池"。这些种子将作为后续问题生成的基础素材。通过自动化的多级分类系统对种子池进行质量评估和筛选,识别出具有高潜力的候选对象。

  • 端到端问题构造:Agent 模型采用系统化方法,使用多个独立信息源从深度和广度两个维度收集与候选种子实体相关的线索,并运用精心设计的信息泛化技术,将具体信息转换为抽象描述,自动构建需要深度探索才能解答的复杂搜索查询。

  • 迭代式问题增强:为进一步提升问题复杂度,我们采用迭代式增强策略。该过程系统性地将直接线索转化为需要多步推理的间接引用(线索的线索),同时严格保证不同线索之间的独立性,防止通过简单的组合搜索获得答案。增强过程的核心在于构建层次化的推理链条,要求解答者必须逐步解析每个经过混淆处理的信息片段。

端到端强化学习

  为克服传统RLHF奖励模型主观性强、易导致奖励 hacking 的局限,我们转向以非对称验证原则为核心的强化学习路径。该原则利用了特定问题的一类固有属性:模型生成答案的过程极具挑战,但验证答案正确与否的路径却十分明确且成本低廉。基于此,我们构建了满足多样性、正确性、唯一性、可验证性及挑战性五大标准的高难度问题体系,为大规模、端到端的强化学习奠定了数据基础。

  在训练框架上,我们采用GRPO算法,并引入了动态课程学习机制以维持最优训练难度。该机制在训练启动阶段,便通过智能筛选,滤除初始模型能完全答对或完全答错的样本,聚焦于正确率适中的数据;并在每个训练周期(epoch)开始时,动态更新训练集,剔除已掌握或过于困难的样本,并补入一定比例的新数据,确保模型始终在“学习区”内高效迭代。

  此外,我们设置了基于线索的生成式密集奖励机制。为应对答案表达形式多样性的挑战并提升验证的准确性与鲁棒性,我们引入了生成式奖励模型(Generative Reward Model)。

  在此基础上,我们进一步构建了更精细化的密集奖励(Dense Reward)结构:当模型成功输出最终答案时,获得满额奖励(如+1);若模型未能得出最终答案,系统将利用其在问题构造阶段保留的原始线索进行过程评估。生成式奖励模型会判定模型当前输出中包含了多少比例的正确线索,并依据该比例函数,赋予模型一个连续、高区分度的部分奖励。这种机制将单一的终点式奖励,转化为贯穿解题过程的密集型、差异化训练信号,极大地提升了模型的学习效率与最终性能。

高效的并行推理

  近期,谷歌 Gemini 2.5 Deep Think 凭借其创新的“并行思考”(Parallel Thinking)机制与强化学习技术,在 2025 年国际数学奥林匹克(IMO)竞赛中荣获金牌。然而,自发布以来,其并行思考机制的具体实现细节始终未有任何技术报道。

  相比之下,昆仑万维Skywork团队始终坚持走开源路线,通过自主研发推出了异步并行推理框架,不仅在提升Agent模型多步推理能力方面取得突破,还显著降低了并行推理过程中的计算成本,实现了性能与效率的双重提升。具体包含以下三大亮点:

  • 并行思考提升推理性能:借鉴人类“头脑风暴”式思维,我们自主研发了并行思考(Parallel Think)机制,支持Agent模型在每一步生成多个候选推理路径,并通过内部排序、博弈等策略筛选最优候选路径用于后续推理。并行思考机制不仅拓展了Agent模型的思维空间,相比单一路径推理能够给出更优答案,还使模型在存在歧义或错误起点的情况下具备纠错与反思能力,通过减少卡顿、空转等失效行为来提升整体推理效率。

  • 长文本生成式结果验证:基于“大模型在验证能力上优于生成能力”的理念,我们创新性地在多步推理规划过程中引入生成式评估方案,通过对多个候选推理路径进行打分、投票等机制,有效筛选出更具潜力和合理性的推理路径用于后续推理。在最优轨迹选择方面,我们采用锦标赛排序(Tournament Ranking)机制,有效延展了推理阶段的 Test-time scaling law,使模型潜在能力得以充分释放,显著提升了其在多步复杂任务中的推理表现与泛化能力。

  • 熵自适应剪枝提升效率:为进一步提升推理效率,我们在并行推理过程中引入了基于熵的确定性估计方法,通过动态计算每个推理节点的预测分布熵值,实时判断模型对当前决策的信心程度。熵自适应剪枝机制仅在高熵、即模型不确定性较高的节点触发多路径推理和资源分配,而对低熵、确定性强的步骤则自动收敛至单一路径,从而有效避免冗余计算,实现了效率与性能的最佳平衡。

多智能体演进Agent

  随着AI Agent应用场景不断扩展,其所需的 MCP 工具(如代码生成、数据查询、格式化处理等)的数量和复杂度持续攀升。人工手动维护这些MCP工具不仅耗时费力,还容易引发系统版本不一致、开发效率低等问题。

  MCP Manager Agent由工具创建、工具检索与工具复用三大模块构成(详细请参考https://skyworkai.github.io/DeepResearchAgent/)。在任务执行中,Agent首先解析用户意图、提取目标与约束,确定任务边界并生成具备清晰定位与可复用名称的临时工具,经过试运行、异常修正与用例评估合格后登记入工具列表;在多工具协作下,通过关键词预筛选从工具库获取相关子集交由Agent决策,若无匹配则动态创建新工具;已验证的工具会以标准化JSON清单持久化,记录完整元数据并支持静态/动态加载与热更新,形成“生成—验证—持久化—复用”的闭环管理机制。

  在此基础上,为了进一步解锁Agent的能力边界,Skywork下一代多智能体系统将深度挖掘不同Agent模型的差异化优势,并将其模型能力与工具能力有机融合,构建协同多智能体框架。该系统不仅能够将多个Agent组织成高效协作团队,还可在线实时利用Agent的代码能力动态创建和管理MCP工具,从而显著提升任务处理能力与环境适应性。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。