27B開源模型直追671B DeepSeek-R1,具身推理SOTA,谷歌三連發

2025-03-13 12:59

谷歌(GOOG) 0
谷歌A(GOOGL) 0

今日，谷歌來了波大爆發，包括：

我們接下來一一介紹。

首先是谷歌開源模型家族Gemma的新成員——Gemma 3，它是一系列基於Gemini 2.0的輕量級SOTA開源模型。作為谷歌迄今最先進、最便攜且最負責任開發的開源模型，Gemma 3專為多種設備設計，從手機、筆記本電腦到工作站，都能實現高速運行，幫助開發者在需要的任何地方創建AI應用。

Gemma 3提供多個版本，包括1B、4B、12B和27B，讓開發者能根據特定硬件和性能需求選擇合適模型。

Gemma 3在同等規模模型中性能卓越，並在LMArena排行榜的人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini等前沿大模型。在下圖中，在取得與DeepSeek-R1相差不多得分的情況下，Gemma 3使用了前者1/32的GPU算力。

這使得用户可以在單個GPU（H100）或TPU上構建流暢的用户體驗，並在體驗到其它模型相似性能的同時節省至少10倍的算力。

同樣在Chatbot Arena榜單中，Gemma-3-27b-it邁進了Top 10，擊敗了OpenAI的o1-preview和o3-mini-high，成為僅次於DeepSeek-R1的第二好的開源模型。

圖源：https://x.com/ai_for_success/status/1899732594486595918

Gemma 3的其他技術亮點包括如下：

此外，Gemma 3的技術報告已經放出，想要了解該系列模型更多細節的小夥伴可以移步查閲。

技術報告地址：

https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Gemini Robotics：將AI帶入物理世界

Google DeepMind 推出了兩個新的人工智能模型，旨在幫助機器人執行比以往更廣泛的現實世界任務。

第一個模型名為 Gemini Robotics，是一個視覺-語言-動作模型，即使沒有接受過相關訓練，它也能理解周圍最新情況。

第二個是 Gemini Robotics-ER，這是一種具有先進空間理解能力的 Gemini 模型，使機器人能夠使用 Gemini 的具身推理 (ER) 能力運行自己的程序。

這兩個新模型都是基於Gemini 2.0開發的。

Gemini Robotics: 最先進的視覺-語言-動作模型

機器人想要在現實世界中對人類真正有幫助，需要具備三個核心條件：通用性、交互性和靈巧性。

通用性：Gemini Robotics技術憑藉對世界的深度理解能力，能夠泛化到全新情境並解決各種任務，包括訓練中從未見過的任務。Gemini Robotics尤其擅長應對新物體、多樣化指令和新環境。技術報告數據顯示，Gemini Robotics在綜合泛化能力測試中的表現比其他最先進的視覺-語言-動作模型平均提高了一倍以上。

Gemini Robotics對世界理解能力的展示

交互性：爲了在動態物理世界中高效運作，機器人需要能與人類及周圍環境無縫互動，並迅速適應變化。

Gemini Robotics基於Gemini 2.0構建，擁有直觀的互動能力。它憑藉先進的語言理解技術，能夠理解並響應日常對話和多語言指令。

與之前的模型相比，它能理解更廣泛的自然語言指令，並根據用户輸入調整行為。同時，它會持續監測周圍環境，檢測環境或指令的變化，並相應調整行動。這種被稱為「可操控性」的能力，使人們能更好地在家庭和工作場所與機器人助手協作。

靈巧性：打造實用型機器人的第三個關鍵要素是靈巧的操作能力。人類輕松完成的日常任務，實際上需要精細的運動技能，這對機器人而言仍極具挑戰。Gemini機器人能夠應對複雜的精確操控多步驟任務，如摺紙或將零食裝入密封袋。

Gemini機器人展現出卓越的靈巧性

此外，Gemini Robotics系統設計具有強大的適應性，能夠兼容各種形狀和尺寸的機器人平臺。雖然該模型主要基於ALOHA 2雙臂機器人平臺的數據訓練，但研究證實它同樣能有效控制基於Franka機械臂（學術實驗室廣泛使用的設備）的雙臂系統。更值得注意的是，Gemini機器人還可針對更復雜的機身結構進行優化定製，如Apptronik開發的Apollo人形機器人，以應對現實環境中的多樣化任務。

Gemini Robotics 致力於研究不同類型的機器人

增強Gemini的世界理解能力

除了Gemini Robotics ，谷歌還推出了一種名為Gemini Robotics-ER（Embodied Reasoning）的先進視覺-語言模型。該模型增強了Gemini對世界的理解，特別是在機器人技術所需的空間推理能力方面，同時允許機器人研發者將其與現有的低級控制器集成。

Gemini Robotics-ER顯著提升了Gemini 2.0的現有功能，如指向和3D檢測。通過結合空間推理與編程能力，Gemini Robotics-ER能夠動態實現全新功能。例如，當識別到咖啡杯時，模型能直觀推斷出合適的雙指抓取方式以抓住杯柄，並規劃安全的接近路徑。

Gemini Robotics-ER能直接執行控制機器人所需的全部步驟，包括感知、狀態估計、空間理解、規劃和代碼生成。在這種端到端的應用場景中，該模型的成功率是Gemini 2.0的2至3倍。當代碼生成不足以解決問題時，Gemini Robotics-ER還能通過上下文學習能力，從少量人類示範中學習模式並提供解決方案。

Gemini Robotics-ER在具身推理能力方面表現出色，包括檢測物體和指向物體部件、尋找對應點以及在三維空間中檢測物體。

最后，谷歌開放了Gemini 2.0 Flash的原生圖像生成能力。現在，開發者可以在Google AI Studio中使用實驗版Gemini 2.0 Flash（gemini-2.0-flash-exp），並通過Gemini API體驗這項功能。Gemini 2.0 Flash結合多模態輸入、增強推理和自然語言理解來創建圖像。

https://blog.google/technology/developers/gemma-3/

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

27B開源模型直追671B DeepSeek-R1,具身推理SOTA,谷歌三連發

推薦文章

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

一周IPO | 賺錢效應持續火熱！年內24只上市新股「0」破發；「圖模融合第一股」海致科技首日飆漲逾242%

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？