热门资讯> 正文
2025-09-01 14:39
(来源:数据GO)
1、OpenAI放大招!GPT-Realtime语音模型上线,支持图像输入
OpenAI正式推出其最新语音模型GPT-Realtime,这款多模态语音Agent模型以其强大的推理能力、图像输入支持以及优化的指令遵循功能引发行业热议。GPT-Realtime不仅在语音交互上实现突破,还通过集成图像输入、远程MCP和SIP电话呼叫等功能,为开发者提供更智能、更灵活的语音Agent解决方案。
2、谷歌Imagen 4正式上线 Gemini API 和 Google AI Studio
谷歌公司日前正式发布了全新的文本转图像生成模型Imagen4,该模型现已通过Gemini API和Google AI Studio平台向用户开放。据官方介绍,新版本在文本渲染性能方面较前代产品实现了显著提升。
此次发布包含三个不同版本的模型。标准版Imagen4主要提升了整体的图像生成质量,特别是在文本渲染准确性方面表现突出。
针对快速生成需求,谷歌同时推出了Imagen4Fast版本。该模型专门针对快速图像生成和大批量处理任务进行了优化,处理速度显著提升,使用成本降至每次生成0.02美元,为需要大量图像生成的用户提供了经济实惠的解决方案。
对于高质量需求用户,谷歌还提供了Imagen4Ultra版本。该版本能够生成更精细的图像细节,并能更准确地遵循用户输入的文本提示,确保生成结果的一致性和准确性。
目前,用户可以通过谷歌的官方开发平台访问和使用这些新模型。谷歌表示,将根据用户反馈和市场需求继续优化相关技术,推动AI图像生成领域的进一步发展。
3、谷歌免费开放AI视频编辑工具Google Vids基本编辑功能
谷歌宣布,其 AI 视频编辑工具 Google Vids 的基本编辑功能将免费向所有用户开放。这意味着,无需订阅 Gemini 的用户也可以使用这一工具,借助多种模板、文本和动画,轻松创建各种视频内容。
Google Vids 的新功能涵盖了多种实用工具,包括通过照片制作8秒带音频的视频片段(称为 Veo3)、用于脚本演示的 AI 头像,以及自动音频清理和转录功能。这些功能的推出,旨在帮助用户更便捷地制作出高质量的视频,尤其适用于社交媒体、YouTube 简介和培训视频等场景。
4、谷歌 Veo 视频工具推行积分制,用户每月可免费创作AI视频
谷歌旗下的 AI 视频工具 Flow 近期进行了重大更新,引入了全新的积分系统,为用户提供每月免费创作视频的机会。此举为用户提供了两种选择:五段 Veo3Fast AI 视频,或一段标准的 Veo3视频。
谷歌从未公开详细说明这两种视频模式之间的质量差异,但新的积分系统为我们提供了线索。用户每月将获得 100个免费积分,一段标准视频的制作成本相当于五段 Fast 视频。这意味着,如果用户追求更快的生成速度,可以选择 Fast 模式;而如果更看重视频质量,则可以专注于制作一段标准的 Veo3视频。
5、谷歌推出全新图像生成模型:Gemini 2.5 Flash Image 免费且支持中文
在全球人工智能领域持续创新的背景下,谷歌于近日正式推出了其最新的图像模型 ——Gemini2.5Flash Image。该模型不仅支持中文,还提供免费使用的服务,迅速在海外社交媒体上引起了热烈反响,尤其是以 “香蕉人” 图像为代表的生成作品受到了广泛关注。
Gemini2.5Flash Image 的强大功能使其在图像生成、编辑和融合方面表现出色。用户只需通过简单的文本提示,就可以实现复杂的图像编辑。例如,当用户上传一张著名足球员卡洛斯的图片时,只需输入 “把他的头部 P 成香蕉人”,系统就能完美地将头部转换,而其他区域保持不变,展现出高水平的图像一致性和文本理解能力。
6、微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破
近日,微软研究院正式开源了其最新音频模型 ——VibeVoice-1.5B。该模型在语音合成技术上实现了多项重大突破,使得合成的语音更自然、时长更长、效果更优。
VibeVoice-1.5B 具备一次性合成90分钟超长语音的能力,这在以往的语音合成模型中是罕见的。之前,多数模型只能合成60分钟以内的语音,且在超过30分钟时容易出现音色漂移和语义断裂的问题。此模型还支持最多四位发言人发言,显著提高了多说话人的合成效果,而以往的开源模型最多只能支持两位发言者。此外,VibeVoice 还实现了对24kHz 原始音频的3200倍压缩,大大提高了压缩效率,且保留了高保真的语音效果。
7、微软推首款自家研发AI模型MAI-Voice-1和MAI-1-preview
近日,微软的人工智能部门正式发布了其首个自家研发的 AI 模型,命名为 MAI-Voice-1和 MAI-1-preview。这标志着微软在人工智能领域的进一步发展,尤其是在与 OpenAI 的竞争中。
MAI-Voice-1是一个语音模型,能够在不到一秒的时间内生成一分种的音频,只需一块 GPU 即可实现。微软表示,MAI-Voice-1已经应用于多个功能之中,例如 “Copilot Daily”,这个功能可以让 AI 主持人为用户朗读当天的头条新闻,并生成类似播客的讨论,以帮助解释各种主题。
8、Anthropic 重大隐私政策更新:用户数据将用于模型训练,需在9月28日前选择退出
Anthropic 正在对其用户数据处理方式进行重大调整。该公司宣布,从即日起,所有 Claude 用户必须在9月28日之前决定是否将其对话用于训练 AI 模型。此前,Anthropic 曾承诺不使用消费者的聊天数据进行模型训练,并会在30天后自动删除用户提示和对话输出。
这项新政策适用于所有 Claude Free、Pro 和 Max 用户,包括使用 Claude Code 的用户。这意味着,用户的对话和编程会话现在可能被用于训练 Anthropic 的 AI 系统。同时,未选择退出的用户数据保留期限将延长至五年。值得注意的是,Claude Gov、Claude for Work、Claude for Education 或 API 访问的企业客户不受此政策影响,这与 OpenAI 保护企业客户的做法类似。
9、DeepSeek-V3.1大模型发布
近日,平安证券发布的计算机行业报告透露,DeepSeek-V3.1大模型已正式上线。这款新模型采用了全新的 UE8M0FP8Scale 参数精度,大幅提升了工具的使用效率和智能体在各类任务中的表现。这一创新不仅令开发者倍感振奋,也为国内芯片产业的发展注入了新的动力。
DeepSeek-V3.1的发布,标志着国产大模型在技术上迈出了重要一步。与国产芯片深度协同的特点,让这一模型在实际应用中更加得心应手。这不仅推动了大模型在各个领域的落地应用,还促进了产业链的软硬件协同发展。这意味着,未来我们将能看到更多基于 DeepSeek-V3.1的智能应用,服务于生活和工作中的各种场景。
10、腾讯开源智能体框架Youtu-agent
腾讯近日发布了 Youtu-agent,这是一个灵活且高性能的框架,旨在构建、运行和评估自主智能体。该框架不仅在基准测试中表现出色,还提供了强大的智能体能力,如数据分析、文件处理和深入研究,所有这些功能都基于开源模型。
此外,Youtu-agent 还支持多种实际应用场景,包括 CSV 分析、文献综述、个人文件整理,以及即将推出的播客和视频生成。它采用了灵活的架构,支持多样的模型 API,从 DeepSeek 到 gpt-oss 都可兼容,方便用户进行扩展和集成。
11、字节OmniHuman-1.5重磅发布!一张图+音频秒变超真实视频
近日,字节跳动数字人团队推出了备受瞩目的OmniHuman-1.5,作为其前身OmniHuman-1的升级版本,这一全新多模态数字人方案在AI视频生成领域再次掀起热潮。OmniHuman-1.5通过结合单张图像和音频输入,生成高度逼真的动态视频,不仅提升了动作协调性和表现力,还新增多项突破性功能,为影视制作、虚拟主播、教育培训和广告营销等领域带来了全新可能。
12、字节的新AI视频模型 Waver 1.0 发布
近日,字节的新AI视频模型Waver1.0正式发布,这是一款集多种功能于一体的视频生成模型,具有更强大的能力。Waver1.0支持文本到视频和图像到视频的转换,为用户提供了一种全新的创作体验。该模型在视频生成的质量和效果上,显著优于现有的开源和闭源模型。
13、网易有道文档翻译功能免费开放,搭载教育大模型提升多语种交流效率
网易有道宣布,其强大的文档翻译功能即日起正式向所有用户免费开放。此举旨在为用户提供更高效、精准的多语种翻译体验,特别是在金融经济、计算机和医学等专业领域。
该免费开放活动将持续至2025年9月30日。用户可通过有道翻译官网下载桌面端,或通过有道词典App体验此项功能。网易有道希望通过此举,为全球用户创造一个更加便利的跨语言交流平台,推动多语种信息的自由传播与分享。
14、钉钉推出“钉钉 ONE” 的新型 AI 办公应用
近日,钉钉推出了一款名为 “钉钉 ONE” 的新型 AI 办公应用。这款应用被设计为一个人与 AI 之间的自然语言交流入口,旨在通过智能体(Agent)驱动工作信息流的高效运转。这一举措不仅提升了办公效率,也标志着智能体技术在日常工作中的实际应用开始落地。
15、元石科技发布问小白5,挑战 GPT-5
元石科技近日正式推出了其最新的旗舰产品 —— 问小白5,这款人工智能系统在多项性能测试中直逼全球领先的 GPT-5。此次发布不仅引起了广泛关注,更是标志着国产大模型技术的又一重要突破。
本月初,备受期待的 GPT-5发布,迅速在数学、编程、多模态理解等领域树立了新的标准。而元石科技并未止步于此,迅速响应市场需求,加速迭代技术,推出问小白5。该模型的发布被视为国产 AI 领域的一次重大飞跃,其各项基准测试的表现均接近 GPT-5,成为国内最具竞争力的大模型之一。
16、NotebookLM视频概览新增支持80多种语言,支持中文
谷歌旗下的人工智能笔记工具NotebookLM迎来重大更新,其视频概览(Video Overviews)功能现已支持超过80种语言,包括法语、德语、西班牙语、日语,以及多种印度语言如印地语、泰米尔语和马拉地语。
这一更新于2025年8月26日正式公布,标志着NotebookLM在全球化和包容性上迈出了重要一步。
谷歌宣布,上述更新已于2025年8月26日起全球推送,预计在一周内覆盖所有用户。 未来,NotebookLM可能进一步整合其他生产力平台,并增加更多地区性语言支持,以满足教育和专业领域的多样化需求。
17、Nous Research 发布 Hermes 4 AI 模型,无内容限制
Nous Research 是一家低调的人工智能初创公司,近日推出了 Hermes4系列大型语言模型。该公司声称,Hermes4的性能与当前领先的商业系统相当,甚至在数学基准测试中表现更佳,同时用户的控制权和内容限制达到前所未有的高度。
Hermes4构建在以用户为导向的模型基础之上,扩展了测试时计算能力,专注于提高模型的创造性与趣味性,且在保持数学、编程和推理表现的同时,去除了审查。
新模型引入了 “混合推理” 模式,用户可以根据需求选择快速响应或更深入的逐步思考。当此模式开启时,模型会在特殊标签内生成思考过程,然后给出最终答案。这种透明的思维过程,与 OpenAI 的 o1推理模型类似,但在信息透明度上更进一步。
在最新测试中,Hermes4的最大模型以4050亿参数在 MATH-500基准中获得了96.3% 的得分,AIME’24数学竞赛的得分也达到了81.9%。这些表现与许多昂贵的商业系统不相上下。
18、Perplexity AI 推出版权分成计划,将向新闻发行商付费
Perplexity AI 近日宣布推出一项 “出版商收入分成计划”,并设立4250万美元的专项基金。这项计划旨在帮助传统媒体机构从其平台上生成的内容流量中获得收益,成为首个提出 “直接分成” 模式的 AI 公司。
尽管目前尚不清楚有哪些具体的出版商参与了这项分成计划,但 Perplexity AI 已经与多个早期合作伙伴进行洽谈,潜在的合作对象包括《时代周刊》、洛杉矶时报以及《财富》杂志等。通过这项新计划,Perplexity AI 希望能够缓解与传统新闻出版机构之间的紧张关系,并寻求在法律风险面前的 “止损” 之策。
19、Nine利润下滑10%,将投入数千万美元AI工具建设等
澳大利亚媒体巨头 Nine Entertainment 报告其全年利润下降 10%,但计划投入约 5,000 万美元用于数字化两百年报纸档案和六十年电视内容,并开发新的 AI 工具。这项投资旨在用 AI 和数字内容资产推动新闻创新与增长发展。
20、Vox 记者获资助跟踪 AI 与核武融合报道
Vox 高级记者 Joshua Keating 获 Outrider 基金会资助,将开展一系列关于 AI 与核武器交互作用的深入报道,探讨自动化战场可能导致的核冲突风险,并制作相关播客节目,引发公众对 AI 安全问题的关注。
21、AI 协作编排重塑媒体内容制作流程
一篇来自 TVTechnology 的观点文章指出,AI 正通过生成虚拟主播、内容亮点剪辑、情感标签、自动翻译等方式,全面整合进媒体制作工作。AI 不仅提高生产效率,还通过内容预测缓存和优化编码,增强内容分发及广告定位能力,是媒体行业走向 AI 原生结构的重要一步。
22、国务院发布《“人工智能+”行动意见》 2035年迈入智能社会
近日,国务院正式印发《关于深入实施“人工智能+”行动的意见》,提出明确时间表与发展目标,全面推动人工智能技术赋能经济社会高质量发展。
根据《意见》,到2027年,我国将率先在6大重点领域实现人工智能的广泛深度融合,新一代智能终端和智能体等核心应用普及率将超过70%,智能经济核心产业规模快速增长。同时,人工智能在公共治理领域的应用将显著增强,开放合作体系日趋完善。
到2030年,人工智能将全面赋能各行业高质量发展,核心应用普及率进一步提升至90%以上,智能经济成为中国经济新的增长极,带动技术普惠和创新成果共享。
展望2035年,我国将全面迈入智能经济与智能社会新阶段,人工智能将成为实现社会主义现代化的重要支撑力量。
此次《意见》的发布,标志着我国“人工智能+”战略正式进入系统推进阶段,为全球人工智能发展注入中国方案。
23、9月1日AI内容标识新规!不合规直接承担法律风险,从业者速看避雷指南
《人工智能生成合成内容标识方法》国家强制标准GB45438-2025即将于9月1日正式实施,这份看似低调的技术文件,实际上将彻底重塑国内AIGC内容生态的游戏规则。
这不是一份可有可无的建议文件,而是一部具有强制执行力的国家标准。它对AI内容从生成、分发到问责的整个链条进行了严格框定,核心要求极其明确:任何使用AI生成的内容,都必须通过技术手段可验证地标明其AI属性,让用户和监管方都能清晰识别。
新标准构建了双重标识体系,分为显式标识和隐式标识两大类别。显式标识要求所有AI生成内容都必须以用户可感知的方式进行标注,确保任何人通过五官都能直接识别内容的AI属性。
对于文本内容,必须在开头、结尾或适当位置清晰标注"人工智能"或"AI生成"字样,字体要求清晰可辨,不得故意模糊或缩小。图片内容需要在边角位置添加标识,字号不能小于图片最短边长的5%,确保标识清晰可见。视频内容的要求更加严格,必须在起始画面显示标识至少2秒钟,让观众有充分时间注意到AI属性。
24、联合国成立人工智能咨询小组
联合国大会做出一项重要决定,成立了一个人工智能咨询机构。该机构旨在为各国在人工智能这一革命性技术方面的决策提供有力支持。
“人工智能独立国际科学小组”有着明确的活动内容,包括 “发布基于证据的科学评估,综合和分析与人工智能的机遇、风险和影响相关的现有研究” 。目前,联合国秘书长安东尼奥 古特雷斯正在积极挑选人员加入这个拥有40名成员的机构,成员任期为三年。
25、OpenAI 与 Anthropic 进行首次合作测试,推动 AI 安全标准
在当前竞争激烈的人工智能(AI)领域,OpenAI 和 Anthropic 两家顶尖 AI 实验室决定进行一项前所未有的合作,联合对彼此的 AI 模型进行安全性测试。
这一举措旨在识别各自内部评估中的盲点,并展示在确保 AI 安全与对齐方面,领先企业之间如何能够携手共进。OpenAI 联合创始人沃伊切赫 扎伦巴(Wojciech Zaremba)在接受采访时指出,随着 AI 技术逐步成熟并被广泛使用,这种跨实验室的合作显得尤为重要。
26、IETF推出新标准草案:让机器识别网页AI内容成为可能
互联网工程任务组(IETF)近日发布《AI内容披露头字段》草案文件,提议在网页HTTP响应中新增头字段,为机器识别AI生成内容提供标准化解决方案。
目前,判断网站内容是否使用AI缺乏机器可读的标准化方式。虽然已有页面声明、水印等方法提示消费者,但机器和应用程序难以自动检测这些信息。
新的元数据头字段将包含五个关键信息:
mode(AI使用模式):分四种取值,明确标识页面内容的AI参与程度
未使用AI
人类创作经AI修改
AI生成后经人类编辑
主要由AI生成且几乎无人为干预
model(AI模型名称):标明使用的具体AI模型
provider(模型提供方):识别AI服务提供商
reviewed-by(内容审查人):记录内容审核责任人
date(时间戳):标注生成或修改的具体时间
该标准将便于自动化操作、搜索引擎索引编制和合规审查,为机器识别网页AI内容提供重要且便捷的技术途径。
需要注意的是,该草案目前仍处于起草阶段,尚未成为正式标准,网站是否采用完全基于自愿原则。但这一举措若最终落实,将为互联网内容透明度带来重大突破。
27、马斯克旗下xAI起诉苹果和OpenAI 指控合谋垄断AI市场
8 月 25 日,埃隆·马斯克旗下的人工智能公司xAI向美国联邦法院提起诉讼,指控苹果公司和OpenAI涉嫌合谋垄断人工智能市场。这起诉讼引发了科技行业的广泛关注。
据诉状显示,xAI指控苹果与OpenAI达成的合作协议使ChatGPT成为苹果设备上唯一的生成式AI聊天工具,这一安排排除了其他AI产品的竞争机会。xAI声称,这种独占地位使OpenAI获得了对"数十亿潜在用户输入指令"的独家访问权,从而有利于其模型的持续改进。
28、全球首现AI勒索软件PromptLock:跨平台黑客新武器来袭
近日,知名网络安全公司 ESET 揭露了全球首个 AI 勒索软件 ——PromptLock。这款恶意软件使用了 OpenAI 开源的 gpt-oss:20b 语言模型,能够在感染的设备上本地生成恶意 Lua 代码,令人担忧的是,它不仅支持 Windows 系统,还能够在 Linux 和 macOS 平台上运行。
根据 ESET 的最新报告,PromptLock 利用预设的文本提示词调用 gpt-oss:20b 模型,在受害设备上直接生成能够搜索、窃取和加密文件的恶意代码。该程序的设计使得其能在各种操作系统中灵活适配,具备高度的隐蔽性和适应性。目前,虽然还未发现 PromptLock 具备直接删除文件的功能,但其潜在威胁性显而易见,黑客未来可能会对其进行进一步的升级和完善。
29、78% 的企业重视网络能力以推动生成式人工智能部署
根据 IDC、NTT DATA 和思科联合发布的最新报告《网络:CIO 关于企业网络和人工智能的指南》,78% 以上的企业在选择生成式人工智能(GenAI)基础设施提供商时,将网络能力视为重要或非常重要的因素。这一数据反映了企业在向人工智能驱动的数字化转型投资时的优先事项发生了显著变化。
该报告基于对1209家组织的调查,指出人工智能驱动的网络技术正在改变网络管理方式,带来了先进的自动化、增强的安全性和优化的性能。企业通过这些技术获得了可量化的收益,包括更高的韧性和响应能力。
报告还强调,网络性能和可用性如今已成为企业的基本期望,而安全性和服务质量则成为提升竞争力的重要因素。随着对 AI 技术的加速采用,预计到2030年,全球经济将因 AI 技术的普及而产生约19.9万亿美元的累积经济影响,占全球 GDP 的3.5%。
企业在评估网络能力时,越来越重视网络在 AI 应用中的作用。报告显示,企业希望通过提升网络性能,以支持更复杂的 AI 算法和数据分析。同时,网络安全也成为了企业在构建 AI 基础设施时考虑的核心问题,以保障敏感数据的安全性。
随着技术的不断进步,企业必须更新其网络基础设施,以适应日益增长的 AI 应用需求。报告建议,企业应优先考虑选择能够提供强大网络支持的 AI 服务提供商,以便在激烈的市场竞争中保持优势。
未来,企业需要加大对网络技术的投资,不仅仅是为了提高现有的操作效率,更是为了为 AI 驱动的业务创新提供坚实的基础。通过充分利用网络能力,企业能够在数字化转型的过程中,实现更高的灵活性和响应能力。