繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

谷歌加入CUA戰場,發佈Gemini 2.5 Computer Use:讓AI直接操作瀏覽器

2025-10-08 11:17

(來源:機器之心)

谷歌的 Computer Use 模型來了!

今天凌晨,谷歌 DeepMind 重磅發佈了基於 Gemini 2.5 的計算機使用模型 Gemini 2.5 Computer Use

考慮到前些天谷歌纔剛剛發佈了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的誕生倒不是特別讓人驚訝。簡單來説,與 OpenAI 的 Computer-Using Agent (CUA) 類似,DeepMind 的這個模型可讓 AI 直接控制用户的瀏覽器 —— 在視覺理解和推理能力的基礎上,該模型可以幫助用户在瀏覽器中執行點擊、滾動和輸入等操作。

先來看兩個官方演示。

提示詞:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at  https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示詞:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app  and ensure notes are clearly in the right sections. Drag them there if not.

可以看到,不管是收集網絡信息與執行動作,還是整理雜亂筆記,Gemini 2.5 Computer Use 都非常準確地完成了任務,同時速度也相當快。

在相關基準上,Gemini 2.5 Computer Use 的性能表現也達到了 SOTA 水平:

同時,其速度表現也優於其它幾個相比較的模型:

目前,開發者已可以通過 Google AI Studio 和 Vertex AI 的 Gemini API 獲取這些能力。用户也可以在 Browserbase 託管的演示環境中試用(最多僅支持 5 分鍾的流程,且不支持用户中途接管)https://gemini.browserbase.com/

機器之心使用該演示環境做了幾次嘗試。整體來看,Gemini 2.5 Computer Use 在完成簡單任務時準確度較高,但稍微複雜一點的任務就容易失敗。

比如在執行「在維基百科上找到 John Wick 頁面」這樣的簡單任務時,該模型的表現非常成功。

但只要稍微複雜一點,該模型就失敗了,比如「在維基百科上找到 John Wick 頁面,並總結其信息,給出中文版。」另外,我們讓其「打開諾貝爾獎官方網站,給出今年諾貝爾將宣佈的時間表」的任務以及以下任務均未能成功完成。

提示詞:瀏覽 jiqizhixin.com,找到近半年關於 Gemini 的報道,並整理成一份 Markdown 文件,並進行總結。

此外,DeepMind 也已經發布了 Gemini 2.5 Computer Use 系統卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use 的工作原理

該模型的核心能力是通過 Gemini API 中新增的 computer_use 工具實現的,開發者使用時需在一個循環流程(loop)中運行。

其輸入應包括:

  • 用户請求;

  • 當前環境的截圖;

  • 最近執行動作的歷史記錄。

另外,輸入中還可以指定是否從默認支持的 UI 動作中排除特定功能以及添加自定義函數。

Gemini 2.5 Computer Use 模型工作流程 Gemini 2.5 Computer Use 模型工作流程

模型分析這些輸入后,會生成響應,通常是一個代表 UI 動作的函數調用(如點擊或輸入)。在某些操作(如購買行為)中,模型還會請求用户確認。客户端隨后會執行這些動作。

動作執行完成后,系統會將最新截圖與當前 URL 作為函數響應返回給模型,重新啟動循環。

這一迭代過程會持續進行,直到任務完成、出現錯誤,或因安全機制或用户決定而終止。

谷歌表示,當前 Gemini 2.5 Computer Use 模型主要針對網頁瀏覽器優化,但在移動端 UI 控制方面也展現出強勁潛力。不過它暫未針對桌面操作系統級控制進行優化。

安全機制設計

谷歌還在博客中分享了他們對該模型的安全機制設計。

谷歌表示:「負責任地構建智能體是讓 AI 造福所有人的唯一途徑。能夠直接操作電腦的 AI 智能體帶來了特有的風險,包括用户惡意使用、模型意外行為、以及網頁環境下的提示詞注入與詐騙。因此,我們在設計中高度重視安全防護。」

在 Gemini 2.5 Computer Use 模型中,谷歌直接在訓練階段融入安全機制,以應對三類主要風險(詳見系統卡)。

此外,谷歌還為開發者提供安全控制選項,防止模型自動執行潛在高風險或有害操作,例如:

  • 損害系統完整性;

  • 危及安全;

  • 繞過驗證碼;

  • 控制醫療設備。

谷歌實施的控制手段包括:

  • 逐步安全服務(Per-step Safety Service):在推理階段,由獨立安全服務評估每個模型擬執行的動作。

  • 系統指令(System Instructions):開發者可設定在特定高風險操作前,智能體必須拒絕或請求用户確認。

結語

谷歌 DeepMind 攜 Gemini 2.5 Computer Use 高調入場,不僅在多個基準測試上展示了領先的性能,也讓 AI 智能體領域的競爭正式進入了白熱化階段。

從 OpenAI 到 Anthropic,再到如今的谷歌,科技巨頭們正競相定義我們與計算機交互的未來。儘管當前模型在面對複雜現實任務時仍顯稚嫩,但這恰恰是技術黎明前的真實寫照。今天我們看到的不僅是一個新模型,更是一個清晰的信號:鍵盤和鼠標的主導地位正受到挑戰,一個通過自然語言直接驅動數字世界的時代,正加速向我們駛來。

參考鏈接

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。