全球AI動態周報-截止8月3日

2025-08-04 18:13

（來源：數據GO）

1、谷歌悄然升級Imagen 4！碾壓GPT-4o

谷歌對其文本轉圖像生成模型Imagen4進行了重大升級，升級后的Imagen4Ultra在權威的Artificial Analysis圖像競技場排行榜中躍升至第三位，與OpenAI的GPT-4o和Seedream3.0並肩，成為全球頂尖的圖像生成模型之一。其在圖像質量、處理複雜提示詞、價格優勢及生成速度等方面表現突出。

2、微軟 Copilot 推出「智能」模式，或將與 GPT-5 緊密結合

微軟近日宣佈，為其 AI 助手 Copilot 引入了一種新的「智能」模式，用户能夠根據當前任務的需求調整 Copilot 的思維速度。這一新功能旨在提升用户體驗，使得非技術用户也能夠輕松使用，而無需深入瞭解底層的 AI 模型。

目前，Copilot 已經提供了多種模式供用户選擇，每種模式都具有不同的響應速度和處理能力。其中，快速響應模式可以在2到3秒內給出答案;深入思考模式則在大約30秒內給出相應;而「深度研究」模式則允許用户完成通常需要幾個小時的複雜任務，在大約10分鍾內提供有效的解決方案。這些模式的設計使得用户在進行研究或解決問題時更加高效。

特別值得注意的是，Copilot 中的「深度研究」功能與 ChatGPT 的類似，能夠高效處理複雜的、多步驟的研究任務。此外，Think Deeper 功能則採用了 OpenAI 最新的推理模型（如 o4-mini），幫助用户解決棘手的數學問題，或管理複雜的家庭項目。此功能能夠為難題提供詳細的分步解答。

3、Claude升級：PDF、圖像、代碼文件都能上傳

近日，AI技術領域迎來一項重要更新。Claude artifacts（Claude神器）功能得到了進一步增強， пользователи(用户)如今可以上傳PDF、圖像、代碼文件等多種格式的數據，並將其與AI驅動的應用無縫集成。這一升級為用户提供了更強大的數據處理和應用能力。

4、馬斯克的Grok推出新功能，允許用户生成6秒AI視頻

最近，馬斯克旗下的 xAI 公司宣佈其 AI 聊天機器人 Grok 推出了一項新功能，用户現在可以生成6秒的視頻片段，包括一些露骨內容。這項名為「Imagine」的功能可以根據用户的提示創建帶聲音的視頻。根據 xAI 員工 Mati Roy 在社交媒體上的帖子，Grok 更新生成的視頻示例包括機器人、外星部落女性等。

5、字節跳動宣佈Coze兩大核心項目開源：Coze Studio和Coze Loop

字節跳動將AI Agent開發平臺Coze的核心項目Coze Studio和Coze Loop開源，為開發者提供低門檻、高靈活性的工具。此舉標誌着其在AI領域的戰略佈局，並推動行業創新。

6、字節豆包大模型日均調用量激增 137 倍，推出多項新產品

字節跳動旗下的雲和 AI 服務平臺火山引擎於7月31日宣佈，豆包大模型的日均 tokens 使用量已超過16.4萬億，相較於去年5月首次發佈時增長了137倍。根據 IDC 的報告，豆包大模型在中國公有云大模型服務的調用量中佔據第一位，市場份額達到46.4%。

在此次發佈會上，火山引擎推出了多個新產品，包括豆包・圖像編輯模型3.0、豆包・同聲傳譯模型2.0以及豆包大模型1.6系列升級版。火山引擎總裁譚待表示，隨着大模型能力的不斷提升，AI 正逐步從傳統的工具演變為主動的智能體。譚待強調，當前正處於技術的重大變革時期，從 PC 時代到移動互聯網，再到如今的 AI 智能體時代，AI 的發展將極大地改變我們的生活和工作方式。

此次發佈的新產品包括全新的豆包・圖像編輯模型3.0，能夠通過自然語言進行圖像處理，滿足用户在廣告營銷等領域的需求。豆包・同聲傳譯模型2.0則將語音延迟從8-10秒降至2-3秒，提升了實時語音轉錄的效率。此外，火山引擎還推出了數字員工交互平臺 HiAgent，旨在幫助企業提高工作效率，解決傳統工作中的諸多瓶頸。

7、字節跳動發佈實驗性擴散語言模型 Seed Diffusion Preview

字節跳動Seed團隊宣佈推出實驗性擴散語言模型Seed Diffusion Preview，標誌着在語言模型領域的一次重大技術突破。該模型旨在通過結構化的代碼生成實驗，驗證離散擴散技術路線作為下一代語言模型基礎框架的可行性。Seed Diffusion Preview在推理速度上取得了顯著提升，達到每秒2146個tokens，相比同等規模的自迴歸模型提升了5.4倍，同時在多個代碼生成基準測試中表現出與自迴歸模型相當的性能。

Seed Diffusion Preview的發佈，旨在解決自迴歸（AR）模型在推理速度和全局控制方面的侷限性。擴散模型通過從粗到精的生成範式，在圖像和視頻合成等連續數據領域取得了顯著成功。然而，將擴散模型應用於自然語言等離散領域面臨根本性挑戰，主要在於標準擴散過程與離散狀態空間的不兼容性。儘管如此，離散擴散模型在可擴展性和效果上已展現出巨大潛力。

8、火山引擎發佈豆包最新圖像編輯、同傳模型

火山引擎在廈門站活動上發佈了豆包系列新模型及AI雲原生服務升級成果，包括圖像編輯模型3.0、同聲傳譯模型2.0以及大模型1.6系列。同時推出釦子核心能力開源和企業自有模型託管方案，助力開發者構建Agent並落地AI應用。

9、可靈AI發佈靈動畫布創意工作臺，多圖參考功能迎重大升級

可靈AI在2025世界人工智能大會上宣佈了兩項重要進展：推出全新創意工作臺‘靈動畫布’以及對‘多圖參考’功能進行升級。同時，其全球創作者數量已突破4500萬，顯示出AI生成內容的廣泛應用和市場認可度的提升。

10、阿里巴巴開源 WebSailor AI Agent，打破信息檢索壁壘

文章介紹了阿里巴巴通義實驗室推出的開源 AI 智能體框架 WebSailor，其在複雜任務處理上表現出色，並通過強化學習和複雜任務生成技術提升了信息檢索的效率。該框架的開源特性為開發者提供了更多探索空間。

11、阿里WebShaper發佈！GAIA碾壓Claude 3.5 Sonnet、GPT-4o

阿里通義實驗室（Tongyi Lab）近日重磅推出WebAgent系列的第四款開源工具——WebShaper，這一突破性框架以其創新的「形式化驅動」信息檢索範式引發行業熱議。據AIbase從社交媒體及相關渠道獲悉，WebShaper不僅在GAIA基準測試中取得60.19的高分，超越了Claude3.5Sonnet和GPT-4o，還通過全新的數據生成方法顯著提升了AI在複雜任務中的信息檢索與推理能力。

12、阿里開源通義萬相Wan2.2:全球首個MoE架構視頻生成模型震撼發佈

阿里開源的通義萬相Wan2.2在視頻生成技術上實現重大突破，引入了業界首創的MoE架構，提升了計算效率，並且具備電影美學控制系統，同時提供消費級顯卡即可部署的小尺寸模型，顯著降低了AI視頻生成的技術門檻。

13、通義千問開源Qwen3-30B-A3B-Instruct-2507非思考模式模型

Qwen3-30B-A3B-Instruct-2507新版本在非思考模式下表現出色，性能媲美頂級閉源模型，並在多個領域實現了顯著提升，同時支持多語言和長文本處理，為開發者和研究人員提供了便利的開源平臺。

14、智譜AI重磅發佈GLM-4.5:全球首個原生融合推理、編碼、智能體能力的開源模型

智譜AI發佈了新一代旗艦模型GLM-4.5，該模型在推理、代碼和智能體能力方面達到開源SOTA水平，並在全球評測中表現優異。其採用MoE架構，提供高參數效率，同時具備全棧開發能力和生態兼容性，為智能體應用提供了強大的技術底座。

15、騰訊AI新突破：X-Omni模型讓智能生成告別"寫字困難症"，圖文理解生成一步到位

騰訊研究團隊發佈了全新的多模態AI模型X-Omni，該模型在圖像生成和理解領域實現了重大突破，特別是在長文本渲染方面表現出色，有效解決了傳統AI模型在圖片文字生成中的準確性問題。

X-Omni採用了創新的強化學習框架來優化模型性能。該系統引入了多維度的獎勵機制，包括美學質量評估器HPSv2、綜合獎勵模型Unified Reward、視覺語言理解模型Qwen2.5-VL-32B，以及專門的文字識別評估工具GOT-OCR2.0和PaddleOCR。這些組件協同工作，在模型生成過程中提供實時反饋和指導，顯著提高了輸出質量的穩定性和準確性。

X-Omni的核心優勢在於實現了圖像生成和理解功能的統一建模。傳統方法通常將這兩項任務分別處理，需要不同的模型架構和訓練策略。X-Omni通過使用語義圖像分詞器SigLIP-VQ，將視覺信息轉換為語言模型可以處理的語義代幣，使得同一個模型既能生成高質量圖像，又能準確理解圖像內容。

16、Manus即將推出Wide Research功能，開啟多智能體並行處理新時代

據彭博消息，AI智能體平臺Manus即將上線重磅功能Wide Research，該功能允許系統調用大量AI智能體並行處理複雜任務，實現大規模數據的同步運算處理。這是Manus自今年3月發佈以來最重要的功能更新，預計本周內正式上線，首發版本將面向月費199美元的高級訂閲用户開放。

Wide Research的核心亮點在於"智能體集羣協作"技術。用户可以同時指派數十個智能體協同工作，輕松完成"生成50張海報設計稿"、"評選全球前100MBA項目"或"分析1000支股票表現"等大規模複雜任務——這些任務通常對OpenAI的Deep Research等現有工具構成挑戰。知情人士透露，Wide Research將顯著提升產品在通用研究和自動執行任務方面的能力。

17、Kimi K2高速版發佈，輸出速度提升至每秒40 Tokens

Kimi開放平臺發佈Kimi K2 高速版。新款模型命名為kimi-k2-turbo-preview，參數規模與現有kimi-k2 保持一致，但輸出速度由每秒10 Tokens提升至每秒40 Tokens，顯著提升使用效率。此次升級旨在優化用户體驗，滿足更高實時性需求的應用場景。

為慶祝Kimi K2高速版的發佈，官方特別推出限時5折特惠活動，該優惠將持續至9月1日，之后將恢復原價。在折扣期間，用户可享受極具競爭力的價格:模型每百萬tokens的輸入價格（緩存命中）僅為¥2.00，輸入價格(緩存未命中)為¥8.00，而輸出價格則為¥32.00，這一優惠力度無疑將吸引眾多用户的關注與嘗試。

18、Anthropic 超越 OpenAI，成為企業 AI 模型的新寵

根據 Menlo Ventures 最近發佈的一項報告，人工智能研究實驗室 Anthropic 的 AI 模型在企業市場中的受歡迎程度已經超過了 OpenAI。這一趨勢反映了 AI 技術在商業應用中的快速變化。當前，Anthropic 在企業大型語言模型市場的份額已達到32%，而 OpenAI 則以25% 的份額位列第二。

報告指出，Anthropic 在2024年6月推出的 Claude3.5Sonnet 模型，為公司的使用量激增奠定了基礎。隨后的 Claude3.7Sonnet 更是進一步推動了這一趨勢。這些數據與行業內的普遍看法相符，很多企業和初創開發者在選擇模型時更青睞於 Claude，而非 OpenAI 的 ChatGPT。

儘管 Anthropic 在企業市場取得了顯著的成功，但 OpenAI 在消費者市場上依然保持着強大的地位。OpenAI 最近報告稱，每天有超過25億條提示發送至 ChatGPT，顯示出其在消費者領域的廣泛應用。

報告還提到，企業在選擇 AI 模型時更加傾向於使用封閉模型。數據顯示，超過一半的企業表示他們並不使用開源模型。截至2025年年中，只有13% 的企業日常工作負載依賴開源模型，較年初的19% 有所下降。在開源市場中，Meta 依然佔據主導地位，這顯示了企業在模型選擇方面的不同策略。

19、開源AI黑馬Cogito v2用機器直覺挑戰DeepSeek與Claude

近日，一家鮮為人知但備受關注的舊金山初創公司 Deep Cogito 發佈了旗下 Cogito v2系列大型語言模型（LLM），試圖在擁擠的開源AI賽道中突圍。不同於傳統的參數堆疊策略，這家由前谷歌工程師創立的公司，押注「機器直覺」與自我改進的推理能力，打造出真正能「邊用邊學」的AI模型。

Cogito v2系列包括四個模型，參數規模從 70B 到671B 不等，分為密集模型（Dense）和專家混合模型（MoE），均已在 Hugging Face、Together AI 等平臺開放使用。旗艦模型 Cogito v2-671B MoE 被稱為「思維效率最優」的推理型AI，推理路徑比 DeepSeek R1縮短60%，性能卻能與 Qwen1.5-72B 和 Claude4Opus 接近甚至超越。

其核心技術在於模型不僅在運行時進行「內省式推理」，更將這些推理路徑提煉回模型權重中，形成內化直覺。這一機制，讓模型能像 AlphaGo 通過對弈強化策略一樣，在每一次推理中「變得更聰明」。

20、Runway推出全新視頻編輯模型Aleph

Runway公司推出了全新的視頻編輯模型Aleph，被譽為‘視頻領域的Kontext模型’。該模型通過自然語言指令實現視頻的多樣化編輯，包括內容增刪、風格遷移、綠幕摳像等，極大降低了視頻創作門檻，為內容創作者提供了前所未有的自由度。

21、Black Forest Labs聯手Krea開源FLUX.1-Krea模型，重新定義圖像生成自然美學

Black Forest Labs與AI初創公司Krea攜手推出開源圖像生成模型FLUX.1-Krea [dev]，該模型專注於解決當前AI生成圖像中普遍存在的"人工痕跡"問題，通過優化細節處理和美學表現，為圖像生成技術帶來了新的突破。

FLUX.1-Krea [dev]的核心設計理念是擺脫傳統AI生成圖像的"塑料感"和過度處理效果。許多現有的AI圖像生成模型往往會產生過曝高光、不自然的色彩飽和度以及明顯的人工痕跡，這些特徵讓觀眾一眼就能識別出是AI生成的作品。新模型通過算法優化和訓練策略改進，着重呈現更加自然的光影效果和細節表現，讓生成的圖像更接近真實攝影作品的質感。

22、BBC 新聞任命 AI 創新負責人並引入生成式 AI 工具

BBC 新聞於 2025 年 7 月 30 日宣佈任命前 Meta、Bloomberg 等媒體集團的 Anjali Kapoor 為「AI、創新與增長總監」，專責 AI 在新聞內容與受眾拓展中的部署與策略規劃。

同日，BBC 同步啟動兩項生成式 AI 工具：一種名為「One‑look summary」（「一眼看明白」），用於生成新聞摘要，適配當下短時慣性閲讀習慣；另一項「Style Assist」（風格助手）可根據 BBC 現有文章風格及語言規範，自動潤色記者來稿稿件草稿。

BBC 表示上述工具均由記者提示、人工審校后發佈，並公開披露 AI 使用情況，以確保透明度和新聞信任性。

23、我國大模型數量突破1500，全球領先地位凸顯

全球大模型數量達3755個，中國企業貢獻1509個，領先世界。生成式人工智能產品用户比例高達80.9%，行業規模持續增長。優質國產人工智能產品加速出海，我國國際影響力顯著提升。

24、浦東發佈 20 億元人工智能種子基金首期 5 億專注早期投資

浦東發佈20億元人工智能種子基金，首期5億專注早期投資，旨在破解初創企業融資難題，推動人工智能產業發展。

25、螞蟻數科聯合多家機構發佈Finova大模型金融應用評測基準

螞蟻數科在世界人工智能大會論壇上正式發佈了金融推理大模型Agentar-Fin-R1，該模型在金融專業性、推理能力及安全合規方面表現出色。通過構建全面的金融任務數據體系和創新訓練算法，提升了模型處理複雜任務的能力，並與多家機構合作推出Finova評測基準，推動行業提升大模型在金融領域的應用水平。

26、谷歌將簽署歐盟人工智能行爲準則，展現其合規決心

近日，谷歌宣佈將簽署歐盟的通用人工智能行爲準則，這是一項旨在幫助人工智能開發者落實合規流程和系統的自願性框架。此舉標誌着谷歌在人工智能監管方面的積極態度，同時也為其他科技巨頭樹立了榜樣。

谷歌的承諾恰逢新的規則即將生效，這些規則針對被認為存在「系統性風險」的通用人工智能模型提供商，規定將於8月2日實施。包括 Anthropic、谷歌、Meta 和 OpenAI 在內的多家大型生成模型公司將受到這些規則的影響，且必須在兩年內全面遵守 AI 法案。

然而，值得注意的是，社交媒體巨頭 Meta 在本月早些時候表示不會簽署該行爲準則，指責歐盟的 AI 立法為「過度干預」，並認為歐洲在人工智能發展上走錯了方向。

簽署歐盟的行爲準則意味着人工智能公司需要遵循一系列的指導方針，包括更新其人工智能工具和服務的文檔、不得使用盜版內容進行模型訓練，並需尊重內容所有者的要求，避免在數據集中使用他們的作品。

27、xAI公司對歐盟AI準則表達部分支持，版權條款引發爭議

近日，馬斯克的 xAI 公司在社交平臺上宣佈將簽署歐盟《通用人工智能行爲準則》的安全與保障章節。根據路透社的報道，該準則由13位獨立專家制定，廣泛吸納了來自人工智能開發者、學術界、民間組織、版權持有者及安全專家等超過1000位利益相關者的意見。該準則的實施旨在提升人工智能的安全性、透明度和版權保護。

xAI 在聲明中指出，雖然準則中的一些內容促進了人工智能的安全發展，但也對創新帶來了負面影響。特別是在透明度和版權章節中，xAI 認為相關條款的規定過於寬泛，這可能會妨礙技術的進步與創新。xAI 強調，作為一家致力於人工智能安全的企業，他們希望在保證安全的同時，能夠有效地推動技術的發展。

歐盟的這一行爲準則將於8月2日正式實施，涵蓋的主要內容包括安全與保障、透明度以及版權三大章節。谷歌已經表示將簽署這一準則，而微軟的高層也暗示可能會跟進。但 Facebook 母公司 Meta 則對這一準則持有反對意見，認為其可能給模型開發者帶來法律不確定性，並超出了人工智能法案的範圍。

28、你的ChatGPT對話可能被意外曝光！竟被搜索引擎收錄

最近，有消息指出，用户在 ChatGPT 上的對話有可能被搜索引擎索引，導致私人信息意外泄露。這種情況主要發生在用户主動分享對話后，鏈接被 Google 和其他搜索引擎收錄。通過過濾搜索結果，僅保留來自「https://chatgpt.com/share」的鏈接，我們可以看到各種陌生人與 ChatGPT 的互動，這些對話內容從求助翻新浴室到求職簡歷修改應有盡有。

儘管許多共享的對話內容看似無聊，然而其中有些卻引發了意外的趣味。例如，一位用户詢問能否在微波爐中加熱金屬叉子，ChatGPT 明確表示「不能」，但此后用户卻繼續提出越來越荒唐的問題，甚至最終要求 AI 製作一份「如何在不召喚撒旦的情況下使用微波爐」的指南。

需要指出的是，ChatGPT 默認並不公開用户的對話記錄，只有在用户主動點擊「分享」並創建鏈接后，聊天記錄纔可能被公開。OpenAI 方面表示:「除非你選擇分享，否則這些記錄是私密的。」然而，這樣的分享行為並沒有被用户普遍理解，許多人可能並未意識到自己分享的鏈接會被搜索引擎索引，從而造成隱私泄露。

對此，OpenAI 近期已決定移除這一功能，稱這只是一次短暫的實驗，未來將加強對用户隱私的保護。Google 等搜索引擎對哪些內容會被編入索引擁有一定的控制權，但最終決定權在於發佈者自身。OpenAI 的發言人明確表示:「我們一直在尋找更好的分享方式，同時確保用户對自己內容的控制權。」

全球AI動態周報-截止8月3日

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？