繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

全球AI動態周報-截止8月31日

2025-09-01 14:39

(來源:數據GO)

  1、OpenAI放大招!GPT-Realtime語音模型上線,支持圖像輸入

  OpenAI正式推出其最新語音模型GPT-Realtime,這款多模態語音Agent模型以其強大的推理能力、圖像輸入支持以及優化的指令遵循功能引發行業熱議。GPT-Realtime不僅在語音交互上實現突破,還通過集成圖像輸入、遠程MCP和SIP電話呼叫等功能,為開發者提供更智能、更靈活的語音Agent解決方案。

  2、谷歌Imagen 4正式上線 Gemini API 和 Google AI Studio

  谷歌公司日前正式發佈了全新的文本轉圖像生成模型Imagen4,該模型現已通過Gemini API和Google AI Studio平臺向用户開放。據官方介紹,新版本在文本渲染性能方面較前代產品實現了顯著提升。

  此次發佈包含三個不同版本的模型。標準版Imagen4主要提升了整體的圖像生成質量,特別是在文本渲染準確性方面表現突出。

  針對快速生成需求,谷歌同時推出了Imagen4Fast版本。該模型專門針對快速圖像生成和大批量處理任務進行了優化,處理速度顯著提升,使用成本降至每次生成0.02美元,為需要大量圖像生成的用户提供了經濟實惠的解決方案。

  對於高質量需求用户,谷歌還提供了Imagen4Ultra版本。該版本能夠生成更精細的圖像細節,並能更準確地遵循用户輸入的文本提示,確保生成結果的一致性和準確性。

  目前,用户可以通過谷歌的官方開發平臺訪問和使用這些新模型。谷歌表示,將根據用户反饋和市場需求繼續優化相關技術,推動AI圖像生成領域的進一步發展。

  3、谷歌免費開放AI視頻編輯工具Google Vids基本編輯功能

  谷歌宣佈,其 AI 視頻編輯工具 Google Vids 的基本編輯功能將免費向所有用户開放。這意味着,無需訂閲 Gemini 的用户也可以使用這一工具,藉助多種模板、文本和動畫,輕松創建各種視頻內容。

  Google Vids 的新功能涵蓋了多種實用工具,包括通過照片製作8秒帶音頻的視頻片段(稱為 Veo3)、用於腳本演示的 AI 頭像,以及自動音頻清理和轉錄功能。這些功能的推出,旨在幫助用户更便捷地製作出高質量的視頻,尤其適用於社交媒體、YouTube 簡介和培訓視頻等場景。

4、谷歌 Veo 視頻工具推行積分制,用户每月可免費創作AI視頻

  谷歌旗下的 AI 視頻工具 Flow 近期進行了重大更新,引入了全新的積分系統,為用户提供每月免費創作視頻的機會。此舉為用户提供了兩種選擇:五段 Veo3Fast AI 視頻,或一段標準的 Veo3視頻。

  谷歌從未公開詳細説明這兩種視頻模式之間的質量差異,但新的積分系統為我們提供了線索。用户每月將獲得 100個免費積分,一段標準視頻的製作成本相當於五段 Fast 視頻。這意味着,如果用户追求更快的生成速度,可以選擇 Fast 模式;而如果更看重視頻質量,則可以專注於製作一段標準的 Veo3視頻。

  5、谷歌推出全新圖像生成模型:Gemini 2.5 Flash Image 免費且支持中文

  在全球人工智能領域持續創新的背景下,谷歌於近日正式推出了其最新的圖像模型 ——Gemini2.5Flash Image。該模型不僅支持中文,還提供免費使用的服務,迅速在海外社交媒體上引起了熱烈反響,尤其是以 「香蕉人」 圖像為代表的生成作品受到了廣泛關注。

  Gemini2.5Flash Image 的強大功能使其在圖像生成、編輯和融合方面表現出色。用户只需通過簡單的文本提示,就可以實現複雜的圖像編輯。例如,當用户上傳一張著名足球員卡洛斯的圖片時,只需輸入 「把他的頭部 P 成香蕉人」,系統就能完美地將頭部轉換,而其他區域保持不變,展現出高水平的圖像一致性和文本理解能力。

  6、微軟開源 VibeVoice-1.5B 模型:90 分鍾超長語音合成新突破

  近日,微軟研究院正式開源了其最新音頻模型 ——VibeVoice-1.5B。該模型在語音合成技術上實現了多項重大突破,使得合成的語音更自然、時長更長、效果更優。

  VibeVoice-1.5B 具備一次性合成90分鍾超長語音的能力,這在以往的語音合成模型中是罕見的。之前,多數模型只能合成60分鍾以內的語音,且在超過30分鍾時容易出現音色漂移和語義斷裂的問題。此模型還支持最多四位發言人發言,顯著提高了多説話人的合成效果,而以往的開源模型最多隻能支持兩位發言者。此外,VibeVoice 還實現了對24kHz 原始音頻的3200倍壓縮,大大提高了壓縮效率,且保留了高保真的語音效果。

  7、微軟推首款自家研發AI模型MAI-Voice-1和MAI-1-preview

  近日,微軟的人工智能部門正式發佈了其首個自家研發的 AI 模型,命名為 MAI-Voice-1和 MAI-1-preview。這標誌着微軟在人工智能領域的進一步發展,尤其是在與 OpenAI 的競爭中。

  MAI-Voice-1是一個語音模型,能夠在不到一秒的時間內生成一分種的音頻,只需一塊 GPU 即可實現。微軟表示,MAI-Voice-1已經應用於多個功能之中,例如 「Copilot Daily」,這個功能可以讓 AI 主持人為用户朗讀當天的頭條新聞,並生成類似播客的討論,以幫助解釋各種主題。

  8、Anthropic 重大隱私政策更新:用戶數據將用於模型訓練,需在9月28日前選擇退出

  Anthropic 正在對其用戶數據處理方式進行重大調整。該公司宣佈,從即日起,所有 Claude 用户必須在9月28日之前決定是否將其對話用於訓練 AI 模型。此前,Anthropic 曾承諾不使用消費者的聊天數據進行模型訓練,並會在30天后自動刪除用户提示和對話輸出。

  這項新政策適用於所有 Claude Free、Pro 和 Max 用户,包括使用 Claude Code 的用户。這意味着,用户的對話和編程會話現在可能被用於訓練 Anthropic 的 AI 系統。同時,未選擇退出的用戶數據保留期限將延長至五年。值得注意的是,Claude Gov、Claude for Work、Claude for Education 或 API 訪問的企業客户不受此政策影響,這與 OpenAI 保護企業客户的做法類似。

9、DeepSeek-V3.1大模型發佈

  近日,平安證券發佈的計算機行業報告透露,DeepSeek-V3.1大模型已正式上線。這款新模型採用了全新的 UE8M0FP8Scale 參數精度,大幅提升了工具的使用效率和智能體在各類任務中的表現。這一創新不僅令開發者倍感振奮,也為國內芯片產業的發展注入了新的動力。

  DeepSeek-V3.1的發佈,標誌着國產大模型在技術上邁出了重要一步。與國產芯片深度協同的特點,讓這一模型在實際應用中更加得心應手。這不僅推動了大模型在各個領域的落地應用,還促進了產業鏈的軟硬件協同發展。這意味着,未來我們將能看到更多基於 DeepSeek-V3.1的智能應用,服務於生活和工作中的各種場景。

  10、騰訊開源智能體框架Youtu-agent

  騰訊近日發佈了 Youtu-agent,這是一個靈活且高性能的框架,旨在構建、運行和評估自主智能體。該框架不僅在基準測試中表現出色,還提供了強大的智能體能力,如數據分析、文件處理和深入研究,所有這些功能都基於開源模型。

  此外,Youtu-agent 還支持多種實際應用場景,包括 CSV 分析、文獻綜述、個人文件整理,以及即將推出的播客和視頻生成。它採用了靈活的架構,支持多樣的模型 API,從 DeepSeek 到 gpt-oss 都可兼容,方便用户進行擴展和集成。

  11、字節OmniHuman-1.5重磅發佈!一張圖+音頻秒變超真實視頻

  近日,字節跳動數字人團隊推出了備受矚目的OmniHuman-1.5,作為其前身OmniHuman-1的升級版本,這一全新多模態數字人方案在AI視頻生成領域再次掀起熱潮。OmniHuman-1.5通過結合單張圖像和音頻輸入,生成高度逼真的動態視頻,不僅提升了動作協調性和表現力,還新增多項突破性功能,為影視製作、虛擬主播、教育培訓和廣告營銷等領域帶來了全新可能。

12、字節的新AI視頻模型 Waver 1.0 發佈

  近日,字節的新AI視頻模型Waver1.0正式發佈,這是一款集多種功能於一體的視頻生成模型,具有更強大的能力。Waver1.0支持文本到視頻和圖像到視頻的轉換,為用户提供了一種全新的創作體驗。該模型在視頻生成的質量和效果上,顯著優於現有的開源和閉源模型。

  13、網易有道文檔翻譯功能免費開放,搭載教育大模型提升多語種交流效率

  網易有道宣佈,其強大的文檔翻譯功能即日起正式向所有用户免費開放。此舉旨在為用户提供更高效、精準的多語種翻譯體驗,特別是在金融經濟、計算機和醫學等專業領域。

  該免費開放活動將持續至2025年9月30日。用户可通過有道翻譯官網下載桌面端,或通過有道詞典App體驗此項功能。網易有道希望通過此舉,為全球用户創造一個更加便利的跨語言交流平臺,推動多語種信息的自由傳播與分享。

14、釘釘推出「釘釘 ONE」 的新型 AI 辦公應用

  近日,釘釘推出了一款名為 「釘釘 ONE」 的新型 AI 辦公應用。這款應用被設計為一個人與 AI 之間的自然語言交流入口,旨在通過智能體(Agent)驅動工作信息流的高效運轉。這一舉措不僅提升了辦公效率,也標誌着智能體技術在日常工作中的實際應用開始落地。

15、元石科技發佈問小白5,挑戰 GPT-5

  元石科技近日正式推出了其最新的旗艦產品 —— 問小白5,這款人工智能系統在多項性能測試中直逼全球領先的 GPT-5。此次發佈不僅引起了廣泛關注,更是標誌着國產大模型技術的又一重要突破。

  本月初,備受期待的 GPT-5發佈,迅速在數學、編程、多模態理解等領域樹立了新的標準。而元石科技並未止步於此,迅速響應市場需求,加速迭代技術,推出問小白5。該模型的發佈被視為國產 AI 領域的一次重大飛躍,其各項基準測試的表現均接近 GPT-5,成為國內最具競爭力的大模型之一。

16、NotebookLM視頻概覽新增支持80多種語言,支持中文

  谷歌旗下的人工智能筆記工具NotebookLM迎來重大更新,其視頻概覽(Video Overviews)功能現已支持超過80種語言,包括法語、德語、西班牙語、日語,以及多種印度語言如印地語、泰米爾語和馬拉地語。

  這一更新於2025年8月26日正式公佈,標誌着NotebookLM在全球化和包容性上邁出了重要一步。

  谷歌宣佈,上述更新已於2025年8月26日起全球推送,預計在一周內覆蓋所有用户。 未來,NotebookLM可能進一步整合其他生產力平臺,並增加更多地區性語言支持,以滿足教育和專業領域的多樣化需求。

  17、Nous Research 發佈 Hermes 4 AI 模型,無內容限制

  Nous Research 是一家低調的人工智能初創公司,近日推出了 Hermes4系列大型語言模型。該公司聲稱,Hermes4的性能與當前領先的商業系統相當,甚至在數學基準測試中表現更佳,同時用户的控制權和內容限制達到前所未有的高度。

  Hermes4構建在以用户為導向的模型基礎之上,擴展了測試時計算能力,專注於提高模型的創造性與趣味性,且在保持數學、編程和推理表現的同時,去除了審查。

  新模型引入了 「混合推理」 模式,用户可以根據需求選擇快速響應或更深入的逐步思考。當此模式開啟時,模型會在特殊標籤內生成思考過程,然后給出最終答案。這種透明的思維過程,與 OpenAI 的 o1推理模型類似,但在信息透明度上更進一步。

  在最新測試中,Hermes4的最大模型以4050億參數在 MATH-500基準中獲得了96.3% 的得分,AIME’24數學競賽的得分也達到了81.9%。這些表現與許多昂貴的商業系統不相上下。

  18、Perplexity AI 推出版權分成計劃,將向新聞發行商付費

  Perplexity AI 近日宣佈推出一項 「出版商收入分成計劃」,並設立4250萬美元的專項基金。這項計劃旨在幫助傳統媒體機構從其平臺上生成的內容流量中獲得收益,成為首個提出 「直接分成」 模式的 AI 公司。

  儘管目前尚不清楚有哪些具體的出版商參與了這項分成計劃,但 Perplexity AI 已經與多個早期合作伙伴進行洽談,潛在的合作對象包括《時代周刊》、洛杉磯時報以及《財富》雜誌等。通過這項新計劃,Perplexity AI 希望能夠緩解與傳統新聞出版機構之間的緊張關係,並尋求在法律風險面前的 「止損」 之策。

19、Nine利潤下滑10%,將投入數千萬美元AI工具建設等

  澳大利亞媒體巨頭 Nine Entertainment 報告其全年利潤下降 10%,但計劃投入約 5,000 萬美元用於數字化兩百年報紙檔案和六十年電視內容,並開發新的 AI 工具。這項投資旨在用 AI 和數字內容資產推動新聞創新與增長發展。

  20、Vox 記者獲資助跟蹤 AI 與核武融合報道

  Vox 高級記者 Joshua Keating 獲 Outrider 基金會資助,將開展一系列關於 AI 與核武器交互作用的深入報道,探討自動化戰場可能導致的核衝突風險,並製作相關播客節目,引發公眾對 AI 安全問題的關注。

21、AI 協作編排重塑媒體內容製作流程

  一篇來自 TVTechnology 的觀點文章指出,AI 正通過生成虛擬主播、內容亮點剪輯、情感標籤、自動翻譯等方式,全面整合進媒體制作工作。AI 不僅提高生產效率,還通過內容預測緩存和優化編碼,增強內容分發及廣告定位能力,是媒體行業走向 AI 原生結構的重要一步。

  22、國務院發佈《「人工智能+」行動意見》 2035年邁入智能社會

  近日,國務院正式印發《關於深入實施「人工智能+」行動的意見》,提出明確時間表與發展目標,全面推動人工智能技術賦能經濟社會高質量發展。

  根據《意見》,到2027年,我國將率先在6大重點領域實現人工智能的廣泛深度融合,新一代智能終端和智能體等核心應用普及率將超過70%,智能經濟核心產業規模快速增長。同時,人工智能在公共治理領域的應用將顯著增強,開放合作體系日趨完善。

  到2030年,人工智能將全面賦能各行業高質量發展,核心應用普及率進一步提升至90%以上,智能經濟成為中國經濟新的增長極,帶動技術普惠和創新成果共享。

  展望2035年,我國將全面邁入智能經濟與智能社會新階段,人工智能將成為實現社會主義現代化的重要支撐力量。

  此次《意見》的發佈,標誌着我國「人工智能+」戰略正式進入系統推進階段,為全球人工智能發展注入中國方案。

  23、9月1日AI內容標識新規!不合規直接承擔法律風險,從業者速看避雷指南

  《人工智能生成合成內容標識方法》國家強制標準GB45438-2025即將於9月1日正式實施,這份看似低調的技術文件,實際上將徹底重塑國內AIGC內容生態的遊戲規則。

  這不是一份可有可無的建議文件,而是一部具有強制執行力的國家標準。它對AI內容從生成、分發到問責的整個鏈條進行了嚴格框定,核心要求極其明確:任何使用AI生成的內容,都必須通過技術手段可驗證地標明其AI屬性,讓用户和監管方都能清晰識別。

  新標準構建了雙重標識體系,分為顯式標識和隱式標識兩大類別。顯式標識要求所有AI生成內容都必須以用户可感知的方式進行標註,確保任何人通過五官都能直接識別內容的AI屬性。

  對於文本內容,必須在開頭、結尾或適當位置清晰標註"人工智能"或"AI生成"字樣,字體要求清晰可辨,不得故意模糊或縮小。圖片內容需要在邊角位置添加標識,字號不能小於圖片最短邊長的5%,確保標識清晰可見。視頻內容的要求更加嚴格,必須在起始畫面顯示標識至少2秒鍾,讓觀眾有充分時間注意到AI屬性。

24、聯合國成立人工智能諮詢小組

  聯合國大會做出一項重要決定,成立了一個人工智能諮詢機構。該機構旨在為各國在人工智能這一革命性技術方面的決策提供有力支持。

  「人工智能獨立國際科學小組」有着明確的活動內容,包括 「發佈基於證據的科學評估,綜合和分析與人工智能的機遇、風險和影響相關的現有研究」 。目前,聯合國祕書長安東尼奧 古特雷斯正在積極挑選人員加入這個擁有40名成員的機構,成員任期為三年。

  25、OpenAI 與 Anthropic 進行首次合作測試,推動 AI 安全標準

  在當前競爭激烈的人工智能(AI)領域,OpenAI 和 Anthropic 兩家頂尖 AI 實驗室決定進行一項前所未有的合作,聯合對彼此的 AI 模型進行安全性測試。

  這一舉措旨在識別各自內部評估中的盲點,並展示在確保 AI 安全與對齊方面,領先企業之間如何能夠攜手共進。OpenAI 聯合創始人沃伊切赫 扎倫巴(Wojciech Zaremba)在接受採訪時指出,隨着 AI 技術逐步成熟並被廣泛使用,這種跨實驗室的合作顯得尤為重要。

26、IETF推出新標準草案:讓機器識別網頁AI內容成為可能

  互聯網工程任務組(IETF)近日發佈《AI內容披露頭字段》草案文件,提議在網頁HTTP響應中新增頭字段,為機器識別AI生成內容提供標準化解決方案。

  目前,判斷網站內容是否使用AI缺乏機器可讀的標準化方式。雖然已有頁面聲明、水印等方法提示消費者,但機器和應用程序難以自動檢測這些信息。

新的元數據頭字段將包含五個關鍵信息:

mode(AI使用模式):分四種取值,明確標識頁面內容的AI參與程度

未使用AI

人類創作經AI修改

AI生成后經人類編輯

主要由AI生成且幾乎無人為干預

  model(AI模型名稱):標明使用的具體AI模型

  provider(模型提供方):識別AI服務提供商

reviewed-by(內容審查人):記錄內容審覈責任人

date(時間戳):標註生成或修改的具體時間

  該標準將便於自動化操作、搜索引擎索引編制和合規審查,為機器識別網頁AI內容提供重要且便捷的技術途徑。

  需要注意的是,該草案目前仍處於起草階段,尚未成為正式標準,網站是否採用完全基於自願原則。但這一舉措若最終落實,將為互聯網內容透明度帶來重大突破。

  27、馬斯克旗下xAI起訴蘋果和OpenAI 指控合謀壟斷AI市場

  8 月 25 日,埃隆·馬斯克旗下的人工智能公司xAI向美國聯邦法院提起訴訟,指控蘋果公司和OpenAI涉嫌合謀壟斷人工智能市場。這起訴訟引發了科技行業的廣泛關注。

  據訴狀顯示,xAI指控蘋果與OpenAI達成的合作協議使ChatGPT成為蘋果設備上唯一的生成式AI聊天工具,這一安排排除了其他AI產品的競爭機會。xAI聲稱,這種獨佔地位使OpenAI獲得了對"數十億潛在用户輸入指令"的獨家訪問權,從而有利於其模型的持續改進。

  28、全球首現AI勒索軟件PromptLock:跨平臺黑客新武器來襲

  近日,知名網絡安全公司 ESET 揭露了全球首個 AI 勒索軟件 ——PromptLock。這款惡意軟件使用了 OpenAI 開源的 gpt-oss:20b 語言模型,能夠在感染的設備上本地生成惡意 Lua 代碼,令人擔憂的是,它不僅支持 Windows 系統,還能夠在 Linux 和 macOS 平臺上運行。

  根據 ESET 的最新報告,PromptLock 利用預設的文本提示詞調用 gpt-oss:20b 模型,在受害設備上直接生成能夠搜索、竊取和加密文件的惡意代碼。該程序的設計使得其能在各種操作系統中靈活適配,具備高度的隱蔽性和適應性。目前,雖然還未發現 PromptLock 具備直接刪除文件的功能,但其潛在威脅性顯而易見,黑客未來可能會對其進行進一步的升級和完善。

29、78% 的企業重視網絡能力以推動生成式人工智能部署

  根據 IDC、NTT DATA 和思科聯合發佈的最新報告《網絡:CIO 關於企業網絡和人工智能的指南》,78% 以上的企業在選擇生成式人工智能(GenAI)基礎設施提供商時,將網絡能力視為重要或非常重要的因素。這一數據反映了企業在向人工智能驅動的數字化轉型投資時的優先事項發生了顯著變化。

  該報告基於對1209家組織的調查,指出人工智能驅動的網絡技術正在改變網絡管理方式,帶來了先進的自動化、增強的安全性和優化的性能。企業通過這些技術獲得了可量化的收益,包括更高的韌性和響應能力。

  報告還強調,網絡性能和可用性如今已成為企業的基本期望,而安全性和服務質量則成為提升競爭力的重要因素。隨着對 AI 技術的加速採用,預計到2030年,全球經濟將因 AI 技術的普及而產生約19.9萬億美元的累積經濟影響,佔全球 GDP 的3.5%。

  企業在評估網絡能力時,越來越重視網絡在 AI 應用中的作用。報告顯示,企業希望通過提升網絡性能,以支持更復雜的 AI 算法和數據分析。同時,網絡安全也成爲了企業在構建 AI 基礎設施時考慮的核心問題,以保障敏感數據的安全性。

  隨着技術的不斷進步,企業必須更新其網絡基礎設施,以適應日益增長的 AI 應用需求。報告建議,企業應優先考慮選擇能夠提供強大網絡支持的 AI 服務提供商,以便在激烈的市場競爭中保持優勢。

  未來,企業需要加大對網絡技術的投資,不僅僅是爲了提高現有的操作效率,更是爲了為 AI 驅動的業務創新提供堅實的基礎。通過充分利用網絡能力,企業能夠在數字化轉型的過程中,實現更高的靈活性和響應能力。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。