熱門資訊> 正文
2025-03-13 12:59
今日,谷歌來了波大爆發,包括:
我們接下來一一介紹。
首先是谷歌開源模型家族Gemma的新成員——Gemma 3,它是一系列基於Gemini 2.0的輕量級SOTA開源模型。作為谷歌迄今最先進、最便攜且最負責任開發的開源模型,Gemma 3專為多種設備設計,從手機、筆記本電腦到工作站,都能實現高速運行,幫助開發者在需要的任何地方創建AI應用。
Gemma 3提供多個版本,包括1B、4B、12B和27B,讓開發者能根據特定硬件和性能需求選擇合適模型。
Gemma 3在同等規模模型中性能卓越,並在LMArena排行榜的人類偏好評估中超越了Llama-405B、DeepSeek-V3和o3-mini等前沿大模型。在下圖中,在取得與DeepSeek-R1相差不多得分的情況下,Gemma 3使用了前者1/32的GPU算力。
這使得用户可以在單個GPU(H100)或TPU上構建流暢的用户體驗,並在體驗到其它模型相似性能的同時節省至少10倍的算力。
同樣在Chatbot Arena榜單中,Gemma-3-27b-it邁進了Top 10,擊敗了OpenAI的o1-preview和o3-mini-high,成為僅次於DeepSeek-R1的第二好的開源模型。
Gemma 3的其他技術亮點包括如下:
此外,Gemma 3的技術報告已經放出,想要了解該系列模型更多細節的小夥伴可以移步查閲。
技術報告地址:
https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
Gemini Robotics:將AI帶入物理世界
Google DeepMind 推出了兩個新的人工智能模型,旨在幫助機器人執行比以往更廣泛的現實世界任務。
第一個模型名為 Gemini Robotics,是一個視覺-語言-動作模型,即使沒有接受過相關訓練,它也能理解周圍最新情況。
第二個是 Gemini Robotics-ER,這是一種具有先進空間理解能力的 Gemini 模型,使機器人能夠使用 Gemini 的具身推理 (ER) 能力運行自己的程序。
這兩個新模型都是基於Gemini 2.0開發的。
Gemini Robotics: 最先進的視覺-語言-動作模型
機器人想要在現實世界中對人類真正有幫助,需要具備三個核心條件:通用性、交互性和靈巧性。
通用性:Gemini Robotics技術憑藉對世界的深度理解能力,能夠泛化到全新情境並解決各種任務,包括訓練中從未見過的任務。Gemini Robotics尤其擅長應對新物體、多樣化指令和新環境。技術報告數據顯示,Gemini Robotics在綜合泛化能力測試中的表現比其他最先進的視覺-語言-動作模型平均提高了一倍以上。
Gemini Robotics對世界理解能力的展示
交互性:爲了在動態物理世界中高效運作,機器人需要能與人類及周圍環境無縫互動,並迅速適應變化。
Gemini Robotics基於Gemini 2.0構建,擁有直觀的互動能力。它憑藉先進的語言理解技術,能夠理解並響應日常對話和多語言指令。
與之前的模型相比,它能理解更廣泛的自然語言指令,並根據用户輸入調整行為。同時,它會持續監測周圍環境,檢測環境或指令的變化,並相應調整行動。這種被稱為「可操控性」的能力,使人們能更好地在家庭和工作場所與機器人助手協作。
靈巧性:打造實用型機器人的第三個關鍵要素是靈巧的操作能力。人類輕松完成的日常任務,實際上需要精細的運動技能,這對機器人而言仍極具挑戰。Gemini機器人能夠應對複雜的精確操控多步驟任務,如摺紙或將零食裝入密封袋。
Gemini機器人展現出卓越的靈巧性
此外,Gemini Robotics系統設計具有強大的適應性,能夠兼容各種形狀和尺寸的機器人平臺。雖然該模型主要基於ALOHA 2雙臂機器人平臺的數據訓練,但研究證實它同樣能有效控制基於Franka機械臂(學術實驗室廣泛使用的設備)的雙臂系統。更值得注意的是,Gemini機器人還可針對更復雜的機身結構進行優化定製,如Apptronik開發的Apollo人形機器人,以應對現實環境中的多樣化任務。
Gemini Robotics 致力於研究不同類型的機器人
增強Gemini的世界理解能力
除了Gemini Robotics ,谷歌還推出了一種名為Gemini Robotics-ER(Embodied Reasoning)的先進視覺-語言模型。該模型增強了Gemini對世界的理解,特別是在機器人技術所需的空間推理能力方面,同時允許機器人研發者將其與現有的低級控制器集成。
Gemini Robotics-ER顯著提升了Gemini 2.0的現有功能,如指向和3D檢測。通過結合空間推理與編程能力,Gemini Robotics-ER能夠動態實現全新功能。例如,當識別到咖啡杯時,模型能直觀推斷出合適的雙指抓取方式以抓住杯柄,並規劃安全的接近路徑。
Gemini Robotics-ER能直接執行控制機器人所需的全部步驟,包括感知、狀態估計、空間理解、規劃和代碼生成。在這種端到端的應用場景中,該模型的成功率是Gemini 2.0的2至3倍。當代碼生成不足以解決問題時,Gemini Robotics-ER還能通過上下文學習能力,從少量人類示範中學習模式並提供解決方案。
Gemini Robotics-ER在具身推理能力方面表現出色,包括檢測物體和指向物體部件、尋找對應點以及在三維空間中檢測物體。
最后,谷歌開放了Gemini 2.0 Flash的原生圖像生成能力。現在,開發者可以在Google AI Studio中使用實驗版Gemini 2.0 Flash(gemini-2.0-flash-exp),並通過Gemini API體驗這項功能。Gemini 2.0 Flash結合多模態輸入、增強推理和自然語言理解來創建圖像。
https://blog.google/technology/developers/gemma-3/
https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/