全球AI動態周報-截止7月13日

2025-07-14 16:35

（轉自：數據GO）

1、OpenAI 宣佈 GPT-5將整合多種模型，實現全新突破

近日，OpenAI 再次確認將推出 GPT-5，並計劃將多個強大的模型整合為一個更為統一的版本。根據 OpenAI 的説法，GPT-5預計將在夏季發佈。

當前，ChatGPT 有多種功能強大的模型，儘管它們各自具備不同的優勢，但由於使用相同的名稱，這給用户帶來了困惑。此外，OpenAI 還推出了「O 系列」模型，專注於推理能力，而4o 及其他模型則具備多模態功能。

2、OpenAI 計劃發佈開放權重模型，打破「閉源」慣例

據知情人士透露，OpenAI 正在準備推出其首個開放權重模型，最早可能於下周發佈。這款新的語言模型將允許公司和政府在 OpenAI 和微軟 Azure 服務器之外的供應商上自行運行，標誌着 OpenAI 自2019年發佈 GPT-2以來首次發佈開放權重模型。

此舉也打破了 OpenAI 自2023年與微軟簽署獨家雲提供商協議以來，其語言模型一直保持閉源的慣例。

OpenAI 的模型通常是閉權的，這意味着模型的訓練參數不公開。然而，即將推出的這款開放權重模型將改變這一現狀，使其能夠在 Azure、Hugging Face 以及其他大型雲提供商上使用，類似於今年早些時候 DeepSeek 的 R1模型迅速獲得微軟和其他雲提供商支持的情況。

消息人士稱，這款新模型「類似於 o3mini」，並具備使 OpenAI 最新模型如此強大的推理能力。在過去的幾個月里，OpenAI 一直在向開發者和研究人員演示這個開放模型，並積極向更廣泛的 AI 社區徵求反饋。

OpenAI 尚未就即將發佈的開放模型發表評論。這一舉動無疑將在人工智能領域引發廣泛關注，並可能對模型開發和部署的未來產生深遠影響。

3、OpenAI 即將推出顛覆性AI瀏覽器，直逼谷歌Chrome

近日，有消息透露，OpenAI 正計劃推出一款全新的 AI 瀏覽器，旨在徹底改變用户的網絡瀏覽體驗，並向市場領導者谷歌 Chrome 發起挑戰。該瀏覽器將充分利用人工智能技術，為用户提供更高效、更智能的網絡操作體驗。

根據相關報道，OpenAI 的新瀏覽器將結合其龐大的 ChatGPT 用户基礎，每周擁有高達4億活躍用户。如果這款瀏覽器能得到廣泛應用，谷歌的廣告生態系統、網絡流量和用戶數據流將受到實質性威脅。

4、ChatGPT 商業推薦存在信息源不可靠風險

近期，SEO 專家詹姆斯・布羅克班克在測試中發現，人工智能工具 ChatGPT 在提供商業推薦時，可能引用了不可靠的信息來源，包括被黑客攻擊的網站和過期的域名。這一現象引發了業內人士的關注，提醒用户在使用 AI 工具時，務必對其推薦信息進行覈實。

在測試中，布羅克班克發現，ChatGPT 在推薦某些公司或服務時，有時引用了被篡改或誤導性的內容。這些內容通常出現在被黑客入侵的高權重網站上，或是已經被重新註冊並用於發佈無關信息的過期域名。由於這些域名原本具有較高的「權威性」，ChatGPT 在生成推薦時仍然將其視為可信來源。

5、谷歌Veo3重磅升級，支持靜態圖片生成生動視頻

谷歌宣佈對其 AI 視頻生成工具 Veo3進行了重磅升級。用户只需上傳一張靜態照片，即可生成高質量的音頻和視頻內容，展示了 AI 在創作領域的巨大潛力。

此次 Veo3的升級，讓用户能夠從單張圖片出發，通過谷歌 Flow 創作平臺生成動態視頻。最令人驚歎的是，該工具能夠保持同一角色在多個鏡頭下的一致性，這一功能的實現為視頻製作提供了全新的可能性。

6、微軟推出Deep Research：Bing與OpenAI深度融合

微軟近日推出創新工具「Deep Research」，將Bing搜索與OpenAI技術深度結合，旨在實現複雜研究任務的自動化。據用户推文透露，該工具以o3-deep-research為核心，展現了強大的信息處理能力。

Deep Research的工作流程高效智能。當用户提出研究問題時，工具首先利用GPT-4o或GPT-4.1與用户交互，澄清問題，確保準確理解需求。明確任務範圍后，Deep Research調用Bing搜索，從網絡中獲取高質量、最新數據。隨后，o3-deep-research通過逐步推理，分析並綜合信息，最終生成結構化的研究報告。

7、xAI 震撼發佈Grok4，超強推理+代碼神器Grok4 Code

xAI正式推出其最新旗艦AI模型Grok4，標誌着人工智能領域的又一重大突破。Grok4是xAI繼Grok3之后推出的全新一代AI模型，旨在與OpenAI的GPT-4o、Google的Gemini3.0等領先模型展開正面競爭。據xAI透露，Grok4在數學、邏輯推理和代碼生成等核心基準測試中表現卓越，部分指標已超越現有頂級模型。例如，在AIME’25數學推理測試和GPQA科學問題基準測試中，Grok4展現出顯著優勢，邏輯推理能力較Grok3提升明顯。

此外，Grok4擁有131，072個token的上下文窗口，相較於Grok3的128，000token略有提升，支持更復雜的長文本處理。這使得Grok4在處理多領域複雜任務時更加高效，適用於從學術研究到日常寫作的廣泛場景。

Grok4現已通過xAI的API向部分開發者開放，普通用户可通過X平臺的Premium+訂閲或Grok.com體驗其功能。

8、AI 大模型的人格化：Grok 4 與馬斯克的「共情」？

xAI 的旗艦 AI 模型 Grok4近日陷入爭議，據TechCrunch 的測試結果顯示，該模型在回答爭議性問題時，似乎優先參考其創始人埃隆·馬斯克的社交媒體帖子和相關新聞報道。這一發現引發了對其「最大程度尋求真相」承諾的質疑。

在 Grok4發佈活動上，埃隆·馬斯克在其社交媒體平臺 X 上直播時表示，其人工智能公司的最終目標是開發一種「最大程度地尋求真相的人工智能」。然而，Grok4在處理巴以衝突、墮胎和移民法等敏感話題時，卻被發現其「思維鏈」中明確提及「搜索埃隆·馬斯克對……的看法」，並引用馬斯克在 X 上的相關帖子。TechCrunch 的多次測試均複製了這一現象。

xAI 尚未發佈詳細説明 AI 模型訓練和校準過程的行業標準報告——系統卡，這使得外界難以確認 Grok4的具體訓練或校準過程。

9、Claude 即將發佈Claude Neptune v3模型，數學能力超強

Anthropic正在緊鑼密鼓地測試代號為「Claude Neptune v3」的全新AI模型。這一消息引發了AI社區的廣泛關注，許多業內人士推測，Neptune v3可能是Claude4.5的雛形，甚至可能在未來數周內正式發佈。作為Anthropic在AI安全與性能領域的又一力作，Neptune v3的亮相無疑將為行業帶來新的期待。

儘管Neptune v3的具體細節尚未公開，但其測試進展和社區熱議已為Anthropic的新模型蒙上了一層神祕面紗。

10、可靈 AI 發佈可圖2.1模型：圖像生成能力大幅提升

可靈 AI 於7月11日正式推出其新一代圖像生成模型「可圖2.1」，標誌着該技術在多個方面取得了顯著進步。這一新模型不僅在指令遵循、人像美感和電影質感等多個維度上有了全面提升，而且還具備了強大的文字生成能力，讓創作變得更加高效。

新模型的推出讓會員用户能夠在7月17日之前免費體驗，為用户提供了文生圖、單圖參考和多圖參考等核心功能。可圖2.1在理解複雜指令方面表現突出，可以準確捕捉提示詞中的各種元素和邏輯關係。

可靈 AI 自上線以來快速迭代，現已成為融合 AI 圖片、視頻、音頻能力的多模態創意生產平臺。用户累計生成的圖片已達3.44億張，視頻1.68億個，展現了其強大的市場影響力。可圖2.1的推出，進一步展示了可靈 AI 在圖像生成領域的技術實力和創新潛力。

11、騰訊開源「混元-A13B」：動態推理大模型，主打「會思考」

騰訊近日宣佈開源其全新語言模型「混元-A13B」，該模型引入了創新的動態推理方法，使其能夠根據任務複雜性在快速和深度「思考」之間智能切換。

「混元-A13B」的核心優勢在於其實時調整推理深度的能力。對於簡單的查詢，模型會啟用快速模式，以最少的推理步驟迅速響應;而面對更復雜的問題，它則能激活涉及多步驟思考的深度推理過程。用户還可以通過特定命令來手動控制這種行為，使用「/think」啟用深度模式，或使用「/no_think」關閉深度模式。

騰訊聲稱，其「混元-A13B-Instruct」版本能夠與OpenAI、Deepseek和阿里巴巴Qwen等領先模型相媲美。報告指出，在2024年美國數學競賽AIME中，「混元-A13B」的準確率達到了87.3%，領先於OpenAI o1的74.3%。

然而，需要注意的是，從2025年的結果來看，OpenAI o1在該輪測試中領先近3%。此外，騰訊的比較數據基於Deepseek-R1的過時1月版本，而Deepseek在5月發佈的版本在AIME2024和2025中的表現更優異，分別取得了91.4分和87.5分。

12、阿里開源 WebSailor，具備強大的推理和檢索能力

阿里通義於近日正式開源了其網絡智能體 WebSailor，該智能體具備強大的推理和檢索能力。

經過在中英文任務的 BrowseComp 評測集中的實測，WebSailor 的32B 和72B 版本表現出色，超越了 DeepSeek R1和 Grok-3等多款閉源模型，排在僅次於 OpenAI 的 DeepResearch 之后。這一成果標誌着阿里在智能體技術領域的持續佈局，通義實驗室在2023年已開源了 WebWalker、WebDancer 和 WebSailor 三款智能體。

13、阿里通義開源支持鏈式推理的音頻生成模型ThinkSound

近日，阿里語音AI團隊宣佈開源全球首個支持鏈式推理的音頻生成模型ThinkSound，該模型通過引入思維鏈（Chain-of-Thought）技術，突破傳統視頻轉音頻技術對畫面動態捕捉的侷限，實現高保真、強同步的空間音頻生成。這一突破標誌着AI音頻技術從「看圖配音」向「結構化理解畫面」的跨越式發展。

14、阿里HumanOmniV2震撼發佈：多模態AI準確率飆升至69.33%

阿里巴巴集團近期正式推出其最新多模態大語言模型HumanOmniV2，在AI領域再掀波瀾。這款模型以其強大的全局上下文理解能力和多模態推理能力，標誌着阿里巴巴在人工智能技術的又一次重大突破。

15、Manus AI官網及社交媒體現變動，中國用户或受影響

日前，通用AI智能體公司Manus近期對其中國區部分業務進行了裁員，並已將核心技術人員遷往新加坡總部。據悉，Manus目前在中國區的員工總數約為120人。

Manus方面此前對此迴應稱，此次調整是基於公司自身經營效率的考量，旨在繼續專注核心業務發展並提升整體運營效率。

此次調整的跡象也體現在Manus的官方平臺上。目前，Manus官網首頁顯示為「Manus在你所在的地區不可用」，而此前則為「Manus中文版本正在開發中」。此外，Manus的官方微博和小紅書賬號內容均已清空。這些變化表明Manus正在對其在中國市場的策略進行重大調整。

16、百度AI團隊推出PaddleOCR 3.1版，關鍵能力支持MCP

7月7日，百度AI團隊宣佈PaddleOCR3.1版本正式上線，在多語種識別、複雜文檔翻譯及大模型連接能力上實現三大升級。新版本支持37種語言的文本識別，平均精度提升超30%，並推出文檔翻譯產線與MCP服務器功能，助力開發者高效構建AI應用。

針對全球化場景下的多語言需求，PaddleOCR3.1新增PP-OCRv5多語種模型，覆蓋法語、西班牙語、俄語等37種語言。通過融合文心4.5多模態大模型的視覺與文本理解能力，模型可自動完成高置信度文本檢測與數據標註，解決多語種數據稀缺痛點。實測數據顯示，新模型在拉丁語系及東斯拉夫語言場景中的識別準確率提升超30%，例如韓文識別錯誤率從8.7%降至2.1%，俄文複雜排版文檔的解析速度提升2倍。

結合PP-StructureV3文檔解析引擎與文心大模型，PaddleOCR3.1推出PP-DocTranslation翻譯產線。該工具可智能識別PDF、圖片中的表格、公式、手寫文字等複雜元素，並轉換為Markdown格式后進行多語言翻譯。針對法律、醫療等專業領域，系統支持用户上傳術語對照表，實現「關鍵詞匯」的精細化翻譯。例如，某跨國藥企使用該功能后，藥品説明書翻譯效率提升40%，專業術語一致性達99.2%。

為降低AI應用開發門檻，PaddleOCR3.1推出MCP（Model Context Protocol）服務器功能，支持通過標準化協議將OCR能力無縫接入下游應用。開發者僅需幾步即可搭建MCP服務，通過本地Python庫、飛槳星河社區或自託管服務調用核心功能，包括圖像文字識別、文檔版面分析等。

17、崑崙萬維發佈Skywork-R1V 3.0：跨模態推理能力直逼人類專家

近日，崑崙萬維正式發佈了其全新開源模型 Skywork-R1V3.0，宣稱在多模態推理方面達到了前所未有的高度，甚至與人類初級專家的水平不相上下。該模型在訓練過程中採用了強化學習策略，使得其在複雜邏輯建模與跨學科知識泛化方面取得了顯著進展。

Skywork-R1V3.0是基於上一代 Skywork-R1V2.0進行「冷啟動」，利用高質量的蒸餾數據和拒絕採樣技術，成功構建了一個強大的多模態推理訓練集。這一模型的設計不僅僅侷限於文本，還涵蓋了圖像處理，使得其在圖像與文本之間的推理能力得到了顯著提升。

據介紹，Skywork-R1V3.0的訓練依賴於僅約1.2萬條監督微調樣本和1.3萬條強化學習樣本，展現了「小數據激發大能力」的獨特優勢。在權威的綜合性多模態評測 MMMU 中，Skywork-R1V3.0以76.0分的成績領先，超越了 Claude-3.7-Sonnet（75.0分）和 GPT-4.5(74.4分)等閉源模型，證明了其卓越的跨模態理解能力。

18、Hugging Face發佈新一代小參數模型 SmolLM3

近日，全球知名的大模型開放平臺 Hugging Face 正式發佈了其最新開源模型 ——SmolLM3。這款模型擁有30億參數，儘管參數量相對較小，但其性能顯著超過了同類的開源模型，如 Llama-3.2-3B 和 Qwen2.5-3B。

SmolLM3不僅支持128k 的上下文窗口，還能夠流暢處理英語、法語、西班牙語、德語等多種語言的文本，標誌着在小參數模型領域的又一重要進展。

19、Vidu Q1 參考生視頻全球上線，最多支持7個主體輸入

生數科技推出的Vidu Q1視頻模型正式上線參考生功能，以「從想象到視頻素材生成只需一步」的顛覆性體驗，重新定義了內容創作的技術邊界與生產效率。

傳統視頻製作流程中，創作者需經歷腳本撰寫、角色設計、分鏡繪製、實景拍攝、后期剪輯等複雜環節，一部短片的誕生往往耗時數周甚至數月。而Vidu Q1參考生功能的推出，徹底打破了這一固有模式。用户僅需上傳人物、道具、場景等參考圖，系統即可在幾分鍾內自動生成融合多元素的視頻素材，實現「零分鏡生成」。例如，輸入兩張牛仔人物圖、兩個場景圖和兩把手槍圖，便能直接生成一段西部對決的影視級畫面，遠景、特寫、情節推進一氣呵成，無需任何人工分鏡設計。

20、Moonvalley發佈Marey Realism v1.5：原生1080P AI視頻模型，零版權風險引領行業新風向！

近日，Moonvalley正式發佈其全新AI視頻生成模型 Marey Realism v1.5，並通過ComfyUI平臺實現全面集成。這款模型以其原生1080P高清晰度、100%基於授權內容的訓練數據以及強大的創作功能，迅速引發行業熱議。

Marey Realism v1.5最大的亮點之一是其原生1080P視頻生成能力。相較於其他依賴后期上行採樣的AI視頻模型，Marey Realism v1.5直接基於高分辨率電影素材進行訓練，確保每一幀畫面都呈現細膩紋理、清晰邊緣和高對比度，無任何偽影或模糊問題。這種「原生高清」特性使其在專業影視製作、廣告創意等領域具備顯著優勢，為用户帶來接近真實拍攝的視覺體驗。

21、Stream-Omni：同時支持各種模態組合交互

中國科學院計算技術研究所自然語言處理團隊推出了一款名為 Stream-Omni 的文本 - 視覺 - 語音多模態大模型。這一模型的核心亮點在於它能夠同時支持多種模態的交互方式，為用户帶來更加靈活和豐富的體驗。

Stream-Omni 是一個基於 GPT-4o 架構的多模態大模型，展現了在文本、視覺和語音三種模態上的卓越能力。通過在線語音服務，用户不僅可以進行語音交互，還能在此過程中實時獲取中間文本結果，使得交互體驗更為自然，猶如「邊看邊聽」。

22、⚖️ 谷歌AI摘要惹爭議！歐盟反壟斷投訴襲來

近日，獨立出版商聯盟向歐洲委員會提交了一份反壟斷投訴，直指谷歌在其搜索引擎中推出的 AI 摘要功能。根據路透社的報道，該投訴指控谷歌「濫用網絡內容」，使得出版商，尤其是新聞出版商遭受了嚴重損失，包括流量、讀者和收入的下滑。

自從去年谷歌在搜索結果頂部加入 AI 生成的摘要以來，這一功能的擴展似乎未能如預期般受到歡迎。儘管谷歌聲稱這些 AI 摘要能夠幫助用户更好地提問，從而創造出新的內容和商業機會，但出版商們卻對此表示強烈不滿。他們認為，除非願意完全退出谷歌的搜索結果，否則就沒有選擇權來拒絕自己的內容被用於 AI 摘要。

在投訴中，出版商們強調，谷歌的做法不僅削弱了他們的在線存在感，還直接影響了他們的收入模式。谷歌的迴應則顯得頗為輕描淡寫，指出有關網絡流量的指控常常是基於不完整的數據，並表示網站流量的波動可以由多種因素引起，而不僅僅是因為 AI 摘要的存在。

這一事件再次引發了公眾對大科技公司如何使用內容和數據的關注。谷歌是否會在壓力之下做出改變，或是繼續推進其 AI 功能，尚未可知。無論如何，這場關於 AI 技術和傳統出版行業之間的博弈，註定會在未來幾個月持續引發熱議。

23、🌐美國電視臺加速部署AI技術，提升多語言直播與元數據處理能力

美國多家電視廣播集團（如 Sinclair、E.W. Scripps 和 Gray Media）正迅速採用 AI 技術，實施實時翻譯、元數據管理、自動歸檔及直播摘要。其中，Sinclair 已測試使用 Deeptune 技術進行實時西班牙語 AI 生成直播，展示了 AI 在提升新聞覆蓋效率和區域多樣性方面的潛力。

24、上海發佈17條新政！助力軟件與信息服務業騰飛，優質AI項目最高可獲30%補助！

在人工智能和軟件產業蓬勃發展的背景下，上海市近日發佈了《上海市促進軟件和信息服務業高質量發展的若干措施》。此次政策的發佈旨在進一步推動本市軟件和信息服務行業的持續增長。上海市經濟和信息化委員會在新聞發佈會上透露，相關措施包含17項具體舉措，將對不同發展階段的企業給予相應的支持。

數據顯示，2023年初至5月，上海市軟件和信息服務業的總營收已經超過6900億元，年同比增長20.4%，遠高於全國14.3% 的平均水平。軟件和信息技術服務行業成為拉動增長的主要動力，營收規模約為3600億元，增長達27.1%。

此次政策的一大亮點是對優質企業的獎勵機制。年營收超過20億元且增速高於全市平均水平的企業將獲得獎勵;而中小企業也能根據規模獲得最高3000萬元的分檔獎勵。此外，小微企業還可獲得30萬元至50萬元不等的一次性成長獎勵，以激勵更多企業的創新和發展。

在人工智能應用方面，上海將支持雲服務商建設模型即服務平臺，通過「算力券」降低企業在模型調用和部署過程中的成本，推動大模型在工業、金融等領域的應用，對優秀項目提供最高30% 的補助。同時，政策還支持 AI 代碼生成及軟件 AI 化改造，優質項目可獲得不超過50% 的補助。

上海市還對高端軟件、數字內容、數字技術和數據要素等領域推出了差異化支持措施，促進創新孵化、交易融資等服務。此外，政策還明確提出降低企業研發、融資、用網及用人成本，以促進更高效的發展。

不止於此，上海的各個區也都實現了軟件和信息服務業的正增長，楊浦、普陀等中心城區增速達到25%、22.6%。政策支持為企業的可持續發展注入了新的活力，吸引和留住高端人才，實現了良好的發展前景。

25、上海累計82款大模型已經通過備案

在2025世界人工智能大會暨人工智能全球治理高級別會議的新聞發佈會上，上海市經濟信息化委員會主任張英透露，今年上海在垂類模型的落地進程中取得了顯著成效，累計有82款大模型通過備案。這一舉措旨在推動製造、金融、醫療和教育等多個領域的國家人工智能示範應用基地建設。

據瞭解，上海市區之間協同發展，形成了高能級的產業載體，具體來説，徐匯的「模速空間」和浦東的「模力社區」正是這樣的示範區。其中，「模速空間」聚焦於模型生態，周邊匯聚了超過500家「AI+」企業，為推動人工智能的發展提供了良好的環境。而「模力社區」則專注於具身智能和垂類應用，吸引了近200家 AI 企業的入駐。

爲了支持這一創新發展，上海還提供了全周期的融資支持。市政府通過國家人工智能基金和市級人工智能母基金，引領並聚焦於算力和語料等要素，設立了功能性子基金，配合區級基金，形成了一套從「種子期」到「成熟期」的融資供給體系。

26、YouTube 新規出爐：打擊 AI 「垃圾內容」，保護創作者真實創作

YouTube 正在進行一項重要的政策更新，計劃加強對「非原創」內容的打擊。這項更新將特別針對那些容易通過人工智能技術生成的「垃圾內容」，例如大量生產的視頻和重複性內容。爲了保護平臺的內容質量，YouTube 將在7月15日更新其合作伙伴計劃（YPP）的盈利政策，明確哪些類型的內容能夠獲得創作者的收益。

雖然新的政策具體條款尚未公開，但 YouTube 的幫助文檔指出，創作者一直以來都需要上傳「原創」和「真實」的內容。此次更新旨在幫助創作者更好地理解當今「非原創」內容的標準。對此，一些創作者表示擔憂，擔心這會限制他們對某些視頻類型的盈利能力，例如反應視頻或剪輯視頻。然而，YouTube 創意負責人 Rene Ritchie 表示，這次變動只是一項「微小的更新」，主要是爲了更好地識別哪些內容是批量生產或重複的。

全球AI動態周報-截止7月13日

推薦文章

熱炒降息交易！市場預期9月降息概率超九成，這些標的或成潛在贏家

一圖IPO | 低本高效！MicroBit比特幣、以太坊現貨ETF開啟認購，入場門檻800港元

華盛早報丨美聯儲降息大消息！美股全線爆發，特朗普發文慶祝；特斯拉CEO馬斯克再獲天價薪酬方案

Palantir超高估值引發對其業績的擔憂

禮來衝擊萬億美元市值之路受阻：貿易風險與減肥藥遇挫成攔路虎

美股機會日報丨美股三大股指齊漲，納指期貨漲超0.8%；COMM盤前暴漲近80%

一覽六家加密機構的「中場答卷」：Strategy豪賺百億，Coinbase靠投資救場

美債「牛陡」：降息押注被徹底引燃！