谷歌加入CUA戰場，發佈Gemini 2.5 Computer Use：讓AI直接操作瀏覽器

2025-10-08 11:17

（來源：機器之心）

谷歌的 Computer Use 模型來了！

今天凌晨，谷歌 DeepMind 重磅發佈了基於 Gemini 2.5 的計算機使用模型 Gemini 2.5 Computer Use。

考慮到前些天谷歌纔剛剛發佈了 Chrome DevTools (MCP)，Gemini 2.5 Computer Use 的誕生倒不是特別讓人驚訝。簡單來説，與 OpenAI 的 Computer-Using Agent (CUA) 類似，DeepMind 的這個模型可讓 AI 直接控制用户的瀏覽器 —— 在視覺理解和推理能力的基礎上，該模型可以幫助用户在瀏覽器中執行點擊、滾動和輸入等操作。

先來看兩個官方演示。

提示詞：From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示詞：My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可以看到，不管是收集網絡信息與執行動作，還是整理雜亂筆記，Gemini 2.5 Computer Use 都非常準確地完成了任務，同時速度也相當快。

在相關基準上，Gemini 2.5 Computer Use 的性能表現也達到了 SOTA 水平：

同時，其速度表現也優於其它幾個相比較的模型：

目前，開發者已可以通過 Google AI Studio 和 Vertex AI 的 Gemini API 獲取這些能力。用户也可以在 Browserbase 託管的演示環境中試用（最多僅支持 5 分鍾的流程，且不支持用户中途接管）：https://gemini.browserbase.com/

機器之心使用該演示環境做了幾次嘗試。整體來看，Gemini 2.5 Computer Use 在完成簡單任務時準確度較高，但稍微複雜一點的任務就容易失敗。

比如在執行「在維基百科上找到 John Wick 頁面」這樣的簡單任務時，該模型的表現非常成功。

但只要稍微複雜一點，該模型就失敗了，比如「在維基百科上找到 John Wick 頁面，並總結其信息，給出中文版。」另外，我們讓其「打開諾貝爾獎官方網站，給出今年諾貝爾將宣佈的時間表」的任務以及以下任務均未能成功完成。

提示詞：瀏覽 jiqizhixin.com，找到近半年關於 Gemini 的報道，並整理成一份 Markdown 文件，並進行總結。

此外，DeepMind 也已經發布了 Gemini 2.5 Computer Use 系統卡：

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use 的工作原理

該模型的核心能力是通過 Gemini API 中新增的 computer_use 工具實現的，開發者使用時需在一個循環流程（loop）中運行。

其輸入應包括：

用户請求；
當前環境的截圖；
最近執行動作的歷史記錄。

另外，輸入中還可以指定是否從默認支持的 UI 動作中排除特定功能以及添加自定義函數。

Gemini 2.5 Computer Use 模型工作流程

模型分析這些輸入后，會生成響應，通常是一個代表 UI 動作的函數調用（如點擊或輸入）。在某些操作（如購買行為）中，模型還會請求用户確認。客户端隨后會執行這些動作。

動作執行完成后，系統會將最新截圖與當前 URL 作為函數響應返回給模型，重新啟動循環。

這一迭代過程會持續進行，直到任務完成、出現錯誤，或因安全機制或用户決定而終止。

谷歌表示，當前 Gemini 2.5 Computer Use 模型主要針對網頁瀏覽器優化，但在移動端 UI 控制方面也展現出強勁潛力。不過它暫未針對桌面操作系統級控制進行優化。

安全機制設計

谷歌還在博客中分享了他們對該模型的安全機制設計。

谷歌表示：「負責任地構建智能體是讓 AI 造福所有人的唯一途徑。能夠直接操作電腦的 AI 智能體帶來了特有的風險，包括用户惡意使用、模型意外行為、以及網頁環境下的提示詞注入與詐騙。因此，我們在設計中高度重視安全防護。」

在 Gemini 2.5 Computer Use 模型中，谷歌直接在訓練階段融入安全機制，以應對三類主要風險（詳見系統卡）。

此外，谷歌還為開發者提供安全控制選項，防止模型自動執行潛在高風險或有害操作，例如：

損害系統完整性；
危及安全；
繞過驗證碼；
控制醫療設備。

谷歌實施的控制手段包括：

逐步安全服務（Per-step Safety Service）：在推理階段，由獨立安全服務評估每個模型擬執行的動作。
系統指令（System Instructions）：開發者可設定在特定高風險操作前，智能體必須拒絕或請求用户確認。

結語

谷歌 DeepMind 攜 Gemini 2.5 Computer Use 高調入場，不僅在多個基準測試上展示了領先的性能，也讓 AI 智能體領域的競爭正式進入了白熱化階段。

從 OpenAI 到 Anthropic，再到如今的谷歌，科技巨頭們正競相定義我們與計算機交互的未來。儘管當前模型在面對複雜現實任務時仍顯稚嫩，但這恰恰是技術黎明前的真實寫照。今天我們看到的不僅是一個新模型，更是一個清晰的信號：鍵盤和鼠標的主導地位正受到挑戰，一個通過自然語言直接驅動數字世界的時代，正加速向我們駛來。

參考鏈接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

谷歌加入CUA戰場，發佈Gemini 2.5 Computer Use：讓AI直接操作瀏覽器

推薦文章

美股機會日報 | 三大股指期貨盤前齊升，華爾街預期美聯儲將再次降息；臺積電盤前漲超2%

華盛早報 | 事關關税，特朗普又「改口」；螞蟻京東已暫停在香港發行穩定幣計劃

新股申購 | 三一重工、八馬茶業、劍橋科技、滴普科技四隻新股今起招股

港股周報丨恆指下周一反彈？特朗普發言緩和貿易緊張局勢，機構喊話當前是增持中國市場良機

一周IPO | 僧多肉少，軒竹生物-B上市暴漲126.72%！海西新葯官宣延迟上市，市值2500億的賽力斯通過聆訊

美股機會日報 | 美聯儲鴿派立場恐生變？沃勒稱若10月降息，之后須謹慎行動；諾和諾德、禮來盤前跌約4%

一周財經日曆 | 降息信號如何？美國9月CPI將於下周公佈；特斯拉、英特爾領銜美股財報潮

恐慌指數單日飆漲22%！「華爾街一哥」拉響區域銀行警報，投資者如何對衝股市波動風險？