简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

全球AI动态周报-截止8月3日

2025-08-04 18:13

(来源:数据GO)

1、谷歌悄然升级Imagen 4!碾压GPT-4o 

谷歌对其文本转图像生成模型Imagen4进行了重大升级,升级后的Imagen4Ultra在权威的Artificial Analysis图像竞技场排行榜中跃升至第三位,与OpenAI的GPT-4o和Seedream3.0并肩,成为全球顶尖的图像生成模型之一。其在图像质量、处理复杂提示词、价格优势及生成速度等方面表现突出。 

2、微软 Copilot 推出 “智能” 模式,或将与 GPT-5 紧密结合 

微软近日宣布,为其 AI 助手 Copilot 引入了一种新的 “智能” 模式,用户能够根据当前任务的需求调整 Copilot 的思维速度。这一新功能旨在提升用户体验,使得非技术用户也能够轻松使用,而无需深入了解底层的 AI 模型。 

目前,Copilot 已经提供了多种模式供用户选择,每种模式都具有不同的响应速度和处理能力。其中,快速响应模式可以在2到3秒内给出答案;深入思考模式则在大约30秒内给出相应;而 “深度研究” 模式则允许用户完成通常需要几个小时的复杂任务,在大约10分钟内提供有效的解决方案。这些模式的设计使得用户在进行研究或解决问题时更加高效。 

特别值得注意的是,Copilot 中的 “深度研究” 功能与 ChatGPT 的类似,能够高效处理复杂的、多步骤的研究任务。此外,Think Deeper 功能则采用了 OpenAI 最新的推理模型(如 o4-mini),帮助用户解决棘手的数学问题,或管理复杂的家庭项目。此功能能够为难题提供详细的分步解答。 

3、Claude升级:PDF、图像、代码文件都能上传 

近日,AI技术领域迎来一项重要更新。Claude artifacts(Claude神器)功能得到了进一步增强, пользователи(用户)如今可以上传PDF、图像、代码文件等多种格式的数据,并将其与AI驱动的应用无缝集成。这一升级为用户提供了更强大的数据处理和应用能力。 

4、马斯克的Grok推出新功能,允许用户生成6秒AI视频 

最近,马斯克旗下的 xAI 公司宣布其 AI 聊天机器人 Grok 推出了一项新功能,用户现在可以生成6秒的视频片段,包括一些露骨内容。这项名为 “Imagine” 的功能可以根据用户的提示创建带声音的视频。根据 xAI 员工 Mati Roy 在社交媒体上的帖子,Grok 更新生成的视频示例包括机器人、外星部落女性等。 

5、字节跳动宣布Coze两大核心项目开源:Coze Studio和Coze Loop 

字节跳动将AI Agent开发平台Coze的核心项目Coze Studio和Coze Loop开源,为开发者提供低门槛、高灵活性的工具。此举标志着其在AI领域的战略布局,并推动行业创新。 

6、字节豆包大模型日均调用量激增 137 倍,推出多项新产品 

字节跳动旗下的云和 AI 服务平台火山引擎于7月31日宣布,豆包大模型的日均 tokens 使用量已超过16.4万亿,相较于去年5月首次发布时增长了137倍。根据 IDC 的报告,豆包大模型在中国公有云大模型服务的调用量中占据第一位,市场份额达到46.4%。 

7、字节跳动发布实验性扩散语言模型 Seed Diffusion Preview 

字节跳动Seed团队宣布推出实验性扩散语言模型Seed Diffusion Preview,标志着在语言模型领域的一次重大技术突破。该模型旨在通过结构化的代码生成实验,验证离散扩散技术路线作为下一代语言模型基础框架的可行性。Seed Diffusion Preview在推理速度上取得了显著提升,达到每秒2146个tokens,相比同等规模的自回归模型提升了5.4倍,同时在多个代码生成基准测试中表现出与自回归模型相当的性能。 

Seed Diffusion Preview的发布,旨在解决自回归(AR)模型在推理速度和全局控制方面的局限性。扩散模型通过从粗到精的生成范式,在图像和视频合成等连续数据领域取得了显著成功。然而,将扩散模型应用于自然语言等离散领域面临根本性挑战,主要在于标准扩散过程与离散状态空间的不兼容性。尽管如此,离散扩散模型在可扩展性和效果上已展现出巨大潜力。 

9、可灵AI发布灵动画布创意工作台,多图参考功能迎重大升级 

可灵AI在2025世界人工智能大会上宣布了两项重要进展:推出全新创意工作台‘灵动画布’以及对‘多图参考’功能进行升级。同时,其全球创作者数量已突破4500万,显示出AI生成内容的广泛应用和市场认可度的提升。 

10、阿里巴巴开源 WebSailor AI Agent,打破信息检索壁垒 

文章介绍了阿里巴巴通义实验室推出的开源 AI 智能体框架 WebSailor,其在复杂任务处理上表现出色,并通过强化学习和复杂任务生成技术提升了信息检索的效率。该框架的开源特性为开发者提供了更多探索空间。 

11、阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o 

阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。 

12、阿里开源通义万相Wan2.2:全球首个MoE架构视频生成模型震撼发布 

阿里开源的通义万相Wan2.2在视频生成技术上实现重大突破,引入了业界首创的MoE架构,提升了计算效率,并且具备电影美学控制系统,同时提供消费级显卡即可部署的小尺寸模型,显著降低了AI视频生成的技术门槛。 

13、通义千问开源Qwen3-30B-A3B-Instruct-2507非思考模式模型 

Qwen3-30B-A3B-Instruct-2507新版本在非思考模式下表现出色,性能媲美顶级闭源模型,并在多个领域实现了显著提升,同时支持多语言和长文本处理,为开发者和研究人员提供了便利的开源平台。 

14、智谱AI重磅发布GLM-4.5:全球首个原生融合推理、编码、智能体能力的开源模型 

智谱AI发布了新一代旗舰模型GLM-4.5,该模型在推理、代码和智能体能力方面达到开源SOTA水平,并在全球评测中表现优异。其采用MoE架构,提供高参数效率,同时具备全栈开发能力和生态兼容性,为智能体应用提供了强大的技术底座。 

15、腾讯AI新突破:X-Omni模型让智能生成告别"写字困难症",图文理解生成一步到位 

腾讯研究团队发布了全新的多模态AI模型X-Omni,该模型在图像生成和理解领域实现了重大突破,特别是在长文本渲染方面表现出色,有效解决了传统AI模型在图片文字生成中的准确性问题。 

X-Omni采用了创新的强化学习框架来优化模型性能。该系统引入了多维度的奖励机制,包括美学质量评估器HPSv2、综合奖励模型Unified Reward、视觉语言理解模型Qwen2.5-VL-32B,以及专门的文字识别评估工具GOT-OCR2.0和PaddleOCR。这些组件协同工作,在模型生成过程中提供实时反馈和指导,显著提高了输出质量的稳定性和准确性。 

X-Omni的核心优势在于实现了图像生成和理解功能的统一建模。传统方法通常将这两项任务分别处理,需要不同的模型架构和训练策略。X-Omni通过使用语义图像分词器SigLIP-VQ,将视觉信息转换为语言模型可以处理的语义代 币,使得同一个模型既能生成高质量图像,又能准确理解图像内容。

16、Manus即将推出Wide Research功能,开启多智能体并行处理新时代 

据彭博消息,AI智能体平台Manus即将上线重磅功能Wide Research,该功能允许系统调用大量AI智能体并行处理复杂任务,实现大规模数据的同步运算处理。这是Manus自今年3月发布以来最重要的功能更新,预计本周内正式上线,首发版本将面向月费199美元的高级订阅用户开放。 

Wide Research的核心亮点在于"智能体集群协作"技术。用户可以同时指派数十个智能体协同工作,轻松完成"生成50张海报设计稿"、"评选全球前100MBA项目"或"分析1000支股票表现"等大规模复杂任务——这些任务通常对OpenAI的Deep Research等现有工具构成挑战。知情人士透露,Wide Research将显著提升产品在通用研究和自动执行任务方面的能力。 

17、Kimi K2高速版发布,输出速度提升至每秒40 Tokens 

Kimi开放平台发布Kimi K2 高速版。新款模型命名为kimi-k2-turbo-preview,参数规模与现有kimi-k2 保持一致,但输出速度由每秒10 Tokens提升至每秒40 Tokens,显著提升使用效率。此次升级旨在优化用户体验,满足更高实时性需求的应用场景。 

为庆祝Kimi K2高速版的发布,官方特别推出限时5折特惠活动,该优惠将持续至9月1日,之后将恢复原价。在折扣期间,用户可享受极具竞争力的价格:模型每百万tokens的输入价格(缓存命中)仅为¥2.00,输入价格(缓存未命中)为¥8.00,而输出价格则为¥32.00,这一优惠力度无疑将吸引众多用户的关注与尝试。 

18、Anthropic 超越 OpenAI,成为企业 AI 模型的新宠 

根据 Menlo Ventures 最近发布的一项报告,人工智能研究实验室 Anthropic 的 AI 模型在企业市场中的受欢迎程度已经超过了 OpenAI。这一趋势反映了 AI 技术在商业应用中的快速变化。当前,Anthropic 在企业大型语言模型市场的份额已达到32%,而 OpenAI 则以25% 的份额位列第二。 

报告指出,Anthropic 在2024年6月推出的 Claude3.5Sonnet 模型,为公司的使用量激增奠定了基础。随后的 Claude3.7Sonnet 更是进一步推动了这一趋势。这些数据与行业内的普遍看法相符,很多企业和初创开发者在选择模型时更青睐于 Claude,而非 OpenAI 的 ChatGPT。 

尽管 Anthropic 在企业市场取得了显著的成功,但 OpenAI 在消费者市场上依然保持着强大的地位。OpenAI 最近报告称,每天有超过25亿条提示发送至 ChatGPT,显示出其在消费者领域的广泛应用。 

报告还提到,企业在选择 AI 模型时更加倾向于使用封闭模型。数据显示,超过一半的企业表示他们并不使用开源模型。截至2025年年中,只有13% 的企业日常工作负载依赖开源模型,较年初的19% 有所下降。在开源市场中,Meta 依然占据主导地位,这显示了企业在模型选择方面的不同策略。 

19、开源AI黑马Cogito v2用机器直觉挑战DeepSeek与Claude 

近日,一家鲜为人知但备受关注的旧金山初创公司 Deep Cogito 发布了旗下 Cogito v2系列大型语言模型(LLM),试图在拥挤的开源AI赛道中突围。不同于传统的参数堆叠策略,这家由前谷歌工程师创立的公司,押注“机器直觉”与自我改进的推理能力,打造出真正能“边用边学”的AI模型。 

Cogito v2系列包括四个模型,参数规模从 70B 到671B 不等,分为 密集模型(Dense) 和 专家混合模型(MoE),均已在 Hugging Face、Together AI 等平台开放使用。旗舰模型 Cogito v2-671B MoE 被称为“思维效率最优”的推理型AI,推理路径比 DeepSeek R1缩短60%,性能却能与 Qwen1.5-72B 和 Claude4Opus 接近甚至超越。 

其核心技术在于模型不仅在运行时进行“内省式推理”,更将这些推理路径提炼回模型权重中,形成内化直觉。这一机制,让模型能像 AlphaGo 通过对弈强化策略一样,在每一次推理中“变得更聪明”。 

21、Black Forest Labs联手Krea开源FLUX.1-Krea模型,重新定义图像生成自然美学 

Black Forest Labs与AI初创公司Krea携手推出开源图像生成模型FLUX.1-Krea [dev],该模型专注于解决当前AI生成图像中普遍存在的"人工痕迹"问题,通过优化细节处理和美学表现,为图像生成技术带来了新的突破。 

FLUX.1-Krea [dev]的核心设计理念是摆脱传统AI生成图像的"塑料感"和过度处理效果。许多现有的AI图像生成模型往往会产生过曝高光、不自然的色彩饱和度以及明显的人工痕迹,这些特征让观众一眼就能识别出是AI生成的作品。新模型通过算法优化和训练策略改进,着重呈现更加自然的光影效果和细节表现,让生成的图像更接近真实摄影作品的质感。

22、BBC 新闻任命 AI 创新负责人并引入生成式 AI 工具 

BBC 新闻于 2025 年 7 月 30 日宣布任命前 Meta、Bloomberg 等媒体集团的 Anjali Kapoor 为「AI、创新与增长总监」,专责 AI 在新闻内容与受众拓展中的部署与策略规划。 

同日,BBC 同步启动两项生成式 AI 工具:一种名为 “Onelook summary(“一眼看明白”),用于生成新闻摘要,适配当下短时惯性阅读习惯;另一项 “Style Assist”(风格助手)可根据 BBC 现有文章风格及语言规范,自动润色记者来稿稿件草稿。 

BBC 表示上述工具均由记者提示、人工审校后发布,并公开披露 AI 使用情况,以确保透明度和新闻信任性。 

23、我国大模型数量突破1500,全球领先地位凸显 

全球大模型数量达3755个,中国企业贡献1509个,领先世界。生成式人工智能产品用户比例高达80.9%,行业规模持续增长。优质国产人工智能产品加速出海,我国国际影响力显著提升。 

24、浦东发布 20 亿元人工智能种子基金 首期 5 亿专注早期投资 

浦东发布20亿元人工智能种子基金,首期5亿专注早期投资,旨在破解初创企业融资难题,推动人工智能产业发展。 

25、蚂蚁数科联合多家机构发布Finova大模型金融应用评测基准 

蚂蚁数科在世界人工智能大会论坛上正式发布了金融推理大模型Agentar-Fin-R1,该模型在金融专业性、推理能力及安全合规方面表现出色。通过构建全面的金融任务数据体系和创新训练算法,提升了模型处理复杂任务的能力,并与多家机构合作推出Finova评测基准,推动行业提升大模型在金融领域的应用水平。 

26、谷歌将签署欧盟人工智能行为准则,展现其合规决心 

近日,谷歌宣布将签署欧盟的通用人工智能行为准则,这是一项旨在帮助人工智能开发者落实合规流程和系统的自愿性框架。此举标志着谷歌在人工智能监管方面的积极态度,同时也为其他科技巨头树立了榜样。 

谷歌的承诺恰逢新的规则即将生效,这些规则针对被认为存在 “系统性风险” 的通用人工智能模型提供商,规定将于8月2日实施。包括 Anthropic、谷歌、Meta 和 OpenAI 在内的多家大型生成模型公司将受到这些规则的影响,且必须在两年内全面遵守 AI 法案。 

然而,值得注意的是,社交媒体巨头 Meta 在本月早些时候表示不会签署该行为准则,指责欧盟的 AI 立法为 “过度干预”,并认为欧洲在人工智能发展上走错了方向。 

签署欧盟的行为准则意味着人工智能公司需要遵循一系列的指导方针,包括更新其人工智能工具和服务的文档、不得使用盗版内容进行模型训练,并需尊重内容所有者的要求,避免在数据集中使用他们的作品。 

27、xAI公司对欧盟AI准则表达部分支持,版权条款引发争议 

近日,马斯克的 xAI 公司在社交平台上宣布将签署欧盟《通用人工智能行为准则》的安全与保障章节。根据路透社的报道,该准则由13位独立专家制定,广泛吸纳了来自人工智能开发者、学术界、民间组织、版权持有者及安全专家等超过1000位利益相关者的意见。该准则的实施旨在提升人工智能的安全性、透明度和版权保护。 

xAI 在声明中指出,虽然准则中的一些内容促进了人工智能的安全发展,但也对创新带来了负面影响。特别是在透明度和版权章节中,xAI 认为相关条款的规定过于宽泛,这可能会妨碍技术的进步与创新。xAI 强调,作为一家致力于人工智能安全的企业,他们希望在保证安全的同时,能够有效地推动技术的发展。 

欧盟的这一行为准则将于8月2日正式实施,涵盖的主要内容包括安全与保障、透明度以及版权三大章节。谷歌已经表示将签署这一准则,而微软的高层也暗示可能会跟进。但 Facebook 母公司 Meta 则对这一准则持有反对意见,认为其可能给模型开发者带来法律不确定性,并超出了人工智能法案的范围。 

28、你的ChatGPT对话可能被意外曝光!竟被搜索引擎收录 

最近,有消息指出,用户在 ChatGPT 上的对话有可能被搜索引擎索引,导致私人信息意外泄露。这种情况主要发生在用户主动分享对话后,链接被 Google 和其他搜索引擎收录。通过过滤搜索结果,仅保留来自 “https://chatgpt.com/share” 的链接,我们可以看到各种陌生人与 ChatGPT 的互动,这些对话内容从求助翻新浴室到求职简历修改应有尽有。 

尽管许多共享的对话内容看似无聊,然而其中有些却引发了意外的趣味。例如,一位用户询问能否在微波炉中加热金属叉子,ChatGPT 明确表示 “不能”,但此后用户却继续提出越来越荒唐的问题,甚至最终要求 AI 制作一份 “如何在不召唤撒旦的情况下使用微波炉” 的指南。 

需要指出的是,ChatGPT 默认并不公开用户的对话记录,只有在用户主动点击 “分享” 并创建链接后,聊天记录才可能被公开。OpenAI 方面表示:“除非你选择分享,否则这些记录是私密的。” 然而,这样的分享行为并没有被用户普遍理解,许多人可能并未意识到自己分享的链接会被搜索引擎索引,从而造成隐私泄露。 

对此,OpenAI 近期已决定移除这一功能,称这只是一次短暂的实验,未来将加强对用户隐私的保护。Google 等搜索引擎对哪些内容会被编入索引拥有一定的控制权,但最终决定权在于发布者自身。OpenAI 的发言人明确表示:“我们一直在寻找更好的分享方式,同时确保用户对自己内容的控制权。”

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。