繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

27B開源模型直追671B DeepSeek-R1,具身推理SOTA,谷歌三連發

2025-03-13 12:59

今日,谷歌來了波大爆發,包括:

我們接下來一一介紹。

首先是谷歌開源模型家族Gemma的新成員——Gemma 3,它是一系列基於Gemini 2.0的輕量級SOTA開源模型。作為谷歌迄今最先進、最便攜且最負責任開發的開源模型,Gemma 3專為多種設備設計,從手機、筆記本電腦到工作站,都能實現高速運行,幫助開發者在需要的任何地方創建AI應用。

Gemma 3提供多個版本,包括1B、4B、12B和27B,讓開發者能根據特定硬件和性能需求選擇合適模型。

Gemma 3在同等規模模型中性能卓越,並在LMArena排行榜的人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini等前沿大模型。在下圖中,在取得與DeepSeek-R1相差不多得分的情況下,Gemma 3使用了前者1/32的GPU算力。

這使得用户可以在單個GPU(H100)或TPU上構建流暢的用户體驗,並在體驗到其它模型相似性能的同時節省至少10倍的算力。

同樣在Chatbot Arena榜單中,Gemma-3-27b-it邁進了Top 10,擊敗了OpenAI的o1-preview和o3-mini-high,成為僅次於DeepSeek-R1的第二好的開源模型。

圖源:https://x.com/ai_for_success/status/1899732594486595918
圖源:https://x.com/ai_for_success/status/1899732594486595918 圖源:https://x.com/ai_for_success/status/1899732594486595918

Gemma 3的其他技術亮點包括如下:

此外,Gemma 3的技術報告已經放出,想要了解該系列模型更多細節的小夥伴可以移步查閲。

技術報告地址:

https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Gemini Robotics:將AI帶入物理世界

Google DeepMind 推出了兩個新的人工智能模型,旨在幫助機器人執行比以往更廣泛的現實世界任務。

第一個模型名為 Gemini Robotics,是一個視覺-語言-動作模型,即使沒有接受過相關訓練,它也能理解周圍最新情況。

第二個是 Gemini Robotics-ER,這是一種具有先進空間理解能力的 Gemini 模型,使機器人能夠使用 Gemini 的具身推理 (ER) 能力運行自己的程序。

這兩個新模型都是基於Gemini 2.0開發的。

Gemini Robotics: 最先進的視覺-語言-動作模型

機器人想要在現實世界中對人類真正有幫助,需要具備三個核心條件:通用性、交互性和靈巧性。

通用性:Gemini Robotics技術憑藉對世界的深度理解能力,能夠泛化到全新情境並解決各種任務,包括訓練中從未見過的任務。Gemini Robotics尤其擅長應對新物體、多樣化指令和新環境。技術報告數據顯示,Gemini Robotics在綜合泛化能力測試中的表現比其他最先進的視覺-語言-動作模型平均提高了一倍以上。

Gemini Robotics對世界理解能力的展示

交互性:爲了在動態物理世界中高效運作,機器人需要能與人類及周圍環境無縫互動,並迅速適應變化。

Gemini Robotics基於Gemini 2.0構建,擁有直觀的互動能力。它憑藉先進的語言理解技術,能夠理解並響應日常對話和多語言指令。

與之前的模型相比,它能理解更廣泛的自然語言指令,並根據用户輸入調整行為。同時,它會持續監測周圍環境,檢測環境或指令的變化,並相應調整行動。這種被稱為「可操控性」的能力,使人們能更好地在家庭和工作場所與機器人助手協作。

靈巧性:打造實用型機器人的第三個關鍵要素是靈巧的操作能力。人類輕松完成的日常任務,實際上需要精細的運動技能,這對機器人而言仍極具挑戰。Gemini機器人能夠應對複雜的精確操控多步驟任務,如摺紙或將零食裝入密封袋。

Gemini機器人展現出卓越的靈巧性

此外,Gemini Robotics系統設計具有強大的適應性,能夠兼容各種形狀和尺寸的機器人平臺。雖然該模型主要基於ALOHA 2雙臂機器人平臺的數據訓練,但研究證實它同樣能有效控制基於Franka機械臂(學術實驗室廣泛使用的設備)的雙臂系統。更值得注意的是,Gemini機器人還可針對更復雜的機身結構進行優化定製,如Apptronik開發的Apollo人形機器人,以應對現實環境中的多樣化任務。

Gemini Robotics 致力於研究不同類型的機器人

增強Gemini的世界理解能力

除了Gemini Robotics ,谷歌還推出了一種名為Gemini Robotics-ER(Embodied Reasoning)的先進視覺-語言模型。該模型增強了Gemini對世界的理解,特別是在機器人技術所需的空間推理能力方面,同時允許機器人研發者將其與現有的低級控制器集成。

Gemini Robotics-ER顯著提升了Gemini 2.0的現有功能,如指向和3D檢測。通過結合空間推理與編程能力,Gemini Robotics-ER能夠動態實現全新功能。例如,當識別到咖啡杯時,模型能直觀推斷出合適的雙指抓取方式以抓住杯柄,並規劃安全的接近路徑。

Gemini Robotics-ER能直接執行控制機器人所需的全部步驟,包括感知、狀態估計、空間理解、規劃和代碼生成。在這種端到端的應用場景中,該模型的成功率是Gemini 2.0的2至3倍。當代碼生成不足以解決問題時,Gemini Robotics-ER還能通過上下文學習能力,從少量人類示範中學習模式並提供解決方案。

Gemini Robotics-ER在具身推理能力方面表現出色,包括檢測物體和指向物體部件、尋找對應點以及在三維空間中檢測物體。

最后,谷歌開放了Gemini 2.0 Flash的原生圖像生成能力。現在,開發者可以在Google AI Studio中使用實驗版Gemini 2.0 Flash(gemini-2.0-flash-exp),並通過Gemini API體驗這項功能。Gemini 2.0 Flash結合多模態輸入、增強推理和自然語言理解來創建圖像。

https://blog.google/technology/developers/gemma-3/

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。