谷歌深夜炸場發佈Gemini 2.0 2025屬於智能體？

2024-12-13 00:15

AI大廠的競爭日趨白熱化，一邊OpenAI正如火如荼進行着為期12天的產品發佈活動，另一邊谷歌也在頻頻放大招。

12月11日晚，剛剛發佈量子芯片的谷歌，又投下一枚重磅炸彈，正式發佈其最新版大模型Gemini 2.0系列。谷歌表示這是他們迄今為止最強大的人工智能模型，「專為智能體時代設計」，並同時介紹了多個智能體應用（AI Agent）。

值得一提的是，時至年末，海內外大廠對AI智能體的佈局都熱情高漲，包括谷歌、微軟，以及國內以智譜為代表的廠商都在加速對這一領域的探索。「隨着越來越多的大廠佈局AI智能體產品和生態，預計2025年將會成為AI智能體商用爆發的年度。」中信建投證券表示。

「展示了通用AI助手的曙光」

如果説去年底發佈的Gemini 1.0是整合和理解信息，那麼Gemini 2.0是能夠讓信息更加有用。谷歌在博客中表示，基於此前多模態方面的進展，Gemini 2.0能夠構建新的AI智能體，從而離通用助手的願景更進一步。

目前谷歌完全對外開放的新模型是Gemini 2.0 Flash體驗版，這是谷歌的主力模型，具有低延迟特性。與此前的1.5 Flash版本相比，Gemini 2.0 Flash在同樣快速的響應時間下性能進一步增強。谷歌提到，2.0 Flash 在關鍵基準測試中甚至超越了此前的旗艦模型1.5 Pro，其速度是1.5 Pro的兩倍。

同時2.0 Flash還具有新功能，除了能夠支持圖片、視頻和音頻等多模態輸入，2.0 Flash還可以支持多模態輸出，例如可以直接生成圖像與文本混合的內容，以及原生生成可控的多語言文本轉語音（TTS）音頻；它還可以原生調用Google Search、代碼執行以及第三方用户定義的函數等工具。

作為提供給開發者的體驗版模型，Gemini 2.0 Flash現在可以通過Google AI Studio和Vertex AI中的Gemini API獲取，所有開發者均可使用多模態輸入和文本輸出。該產品將於明年1月全面上市，谷歌稱屆時將推出更多型號。

對於Gemini 2.0模型，谷歌表示會先開放給開發者以及受信任的測試人員，並將其整合到產品中。Gemini 2.0基於谷歌定製的硬件第六代TPU Trillium構建而成。谷歌表示，TPU為Gemini 2.0的訓練和推理提供100%算力支持。

模型之外，谷歌這次的重頭戲是智能體。在發佈產品的同時，谷歌CEO桑達爾·皮查伊（Sundar Pichai）在X平臺上着重提到了智能體Project Astra，認為其「展示了通用AI助手的曙光」。

皮查伊表示：「2025年將是令人興奮的一年。」帖子下則有評論表示，2025年會是屬於智能體的一年。

所謂智能體，簡單來説是能夠感知環境，具有獨立思考和行動能力的AI程序。傳統AI通常是指令驅動的，需要人類用户輸入指令纔會執行相應的任務，AI智能體則有獨立解決任務的能力。

Project Astra是谷歌最初在5月的I/O大會上首次對外發布的AI助手，彼時主要是對標OpenAI的GPT-4o，其主要功能包括實時語音和視覺處理，能夠通過手機或谷歌眼鏡進行跨文本、音頻、視頻的多模態實時推理。谷歌在此次的博客中將其稱為「使用多模態理解現實世界的智能體」。

對於此次正式發佈的Project Astra，谷歌表示，它能夠流暢地在多種語言和混合語言之間進行對話，並且能夠理解不同口音和生僻單詞。此外，藉助Gemini 2.0，Project Astra可以使用Google Search、Google Lens和Google Maps，從而在日常生活中發揮助手的作用。

谷歌增強了Project Astra的記憶能力，這一助手目前可以記住長達10分鍾的會話內容，並且可以回憶起過去與它進行的更多對話，能提供個性化服務。

在此前5月I/O大會上的演示中，在詢問Project Astra時，其語音回覆還有一定的延迟，谷歌這次改進了這一點。博客提及，藉助新的流式處理技術和原生音頻理解能力，該智能體能夠以接近於人類對話的延迟來理解語言。

除了Project Astra的升級版，這次谷歌發佈的智能體還包括：完成複雜任務的智能體Project Mariner，能夠幫助開發者的編碼智能體Jules，以及遊戲和其他領域的智能體。

Project Mariner是使用Gemini 2.0構建的早期研究原型，可以從瀏覽器開始探索人機交互，它能夠理解和推理瀏覽器頁面中的信息，包括像素和文本、代碼、圖像和表單等網頁元素，然后通過Chrome擴展程序使用這些信息為用户完成任務。

在WebVoyager基準測試中，Project Mariner作為單個智能體設置實現了83.5% 的工作效率，達到了先進的水平。但谷歌提到，Project Mariner目前的運行並非總是準確，且完成任務的速度較慢，仍處於早期階段。

谷歌還在博客最后介紹了遊戲和其他領域的智能體。就在上周，谷歌剛剛推出了世界基礎模型Genie 2，這是一個可以從單個圖像創建無限3D世界的AI模型。基於此，谷歌使用Gemini 2.0構建了智能體，可以幫助用户在電子遊戲中做出更好的決策。谷歌稱，這些遊戲智能體可以根據屏幕上的實時畫面，分析遊戲情況，併爲用户提供下一步的行動建議。

除了探索虛擬世界的智能體能力外，谷歌還將Gemini 2.0的空間推理能力應用於機器人領域，嘗試讓智能體在現實世界中提供幫助。這項研究仍處於初期階段，但谷歌認為智能體在現實環境中的應用前景非常廣闊。

海內外大廠積極佈局智能體

「AI智能體在現實中的應用是一個令人振奮且充滿可能性的研究領域。」谷歌稱，團隊正在探索這個全新的領域，並開發出了一系列原型，幫助人們完成任務。

不僅是谷歌，臨近2024年底，AI智能體頻頻被行業人士提及。

近日，天風證券發佈研究報告稱，海外大廠積極佈局智能體構建應用，AI智能體正在快速發展，智能體在C端硬件落地正進入臨界點。

10月21日，微軟連發10個AI智能體，面向銷售、運營等場景；11月19日，微軟又宣佈Copilot Studio平臺已支持用户構建自主智能體，同時發佈5款預構建的智能體。12月，亞馬遜公佈了一系列佈局AI大模型的進展。

在國內，以智譜為代表的廠商也開始重點發力AI智能體。10月25日，智譜發佈AutoGLM智能體，可通過讀取語音指令理解用户意圖，並模擬人類行為，自動完成點外賣、訂機票和酒店等操作。11月29日，智譜推出AutoGLM智能體升級版，支持自主執行超過50步的長步驟任務，並且能夠在執行任務時靈活切換不同的APP。

除智譜以外，字節、百度、騰訊、阿里等科技大廠也開始佈局智能體，包括字節的Coze Agent平臺、百度千帆AgentBuilder智能體開發工具等。

在此前的採訪中，瑞銀證券中國科技軟件分析師張維璇預測：「明年是智能體的大年。」

她表示，最近也看到美國領先的軟件廠商發佈了AI智能體的產品，通過智能體將企業的工作流自動化，在前中后臺的很多應用都能看到對客户的效率和用户體驗的提高，並且這些軟件公司也獲得了提價。

谷歌深夜炸場 發佈Gemini 2.0 2025屬於智能體？

推薦文章

美股機會日報 | 凌晨00:35！鮑威爾將發表重要講話；阿里Qwen團隊今晚將發佈6個「新東西」

華盛早報 | 美聯儲理事米蘭「首秀」，呼籲激進降息；英偉達漲近4%市值突破4.5萬億美元

美股機會日報 | 華爾街樂觀押注：利率降幅將遠超美聯儲預測！以太坊跳水重挫超5%，加密貨幣概念股BitMine盤前一度跌近10%

一圖看懂 | 兩隻易方達ETF開啟認購！入場門檻為1500港元

新股申購 | 博泰車聯今起招股！一手入場費2065.23港元

美股「新寵」驟變：「昔日冷門」硬盤與內存站上AI風口 老牌存儲廠商業績股價齊飛

美聯儲政策路徑不確定性仍存 中期美債備受交易員青睞

特朗普的H-1B簽證10萬美元新規引發科技公司混亂

谷歌深夜炸場發佈Gemini 2.0 2025屬於智能體？

美股「新寵」驟變：「昔日冷門」硬盤與內存站上AI風口老牌存儲廠商業績股價齊飛

美聯儲政策路徑不確定性仍存中期美債備受交易員青睞