熱門資訊> 正文
2025-06-27 21:06
當地時間 6 月 26 日,在上個月的 Google I/O 上首次亮相預覽后,谷歌如今正式發佈了 Gemma 3n 完整版,可以直接在本地硬件上運行。
「迫不及待地想看看這些 Android 的性能!」正式發佈后有開發者説道。
Gemma 系列是谷歌推出的一組開源大模型。與 Gemini 不同:Gemma 面向開發者,可供下載和修改,而 Gemini 是谷歌的封閉專有模型,更注重性能與商業化。
據悉,此次正是發佈的 Gemma 3n 現已具備輸入圖像、音頻和視頻的能力,支持文本輸出,還能在最低 2GB 內存的設備上運行,在編程與推理等任務上據稱表現更佳。具體看,主要更新亮點包括:
天生多模態設計:原生支持圖像、音頻、視頻和文本的輸入,以及文本輸出。
端側優化設計:Gemma 3n 着眼於運行效率,提供兩種基於「有效參數」的尺寸:E2B 和 E4B。雖然其原始參數量分別為 5B 和 8B,但通過架構創新,它們運行時的內存佔用量僅相當於傳統的 2B 和 4B 參數模型,並且最低僅需 2GB(E2B)和 3GB(E4B)內存即可運行。
至於基準測試,Gemma 3n 的 E4B 模型成為首個在參數規模低於 10 B 的前提下,LMArena 測評得分突破 1300 的模型,表現優於 Llama 4 Maverick 17 B、GPT 4.1-nano、Phi-4。
「Gemma 3n 也是我見過的任何模型中首發最全面的:谷歌與「AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM」合作,因此現在有幾十種方法可以嘗試。」Django Web 聯合創建者 Simon Willison 説道。
Willison 在 Mac 筆記本電腦上分別運行了兩個版本。在 Ollama 上,4B 型號的 7.5GB 版本 模型畫了這樣一幅畫:
然后,他使用 15.74 GB 的 bfloat16 版本模型得到了下面的一幅圖:
「7.5GB 和 15GB 模型量化之間存在如此顯著的視覺差異。」Willison 説道。他還指出,Ollama 版本似乎尚不支持圖像或音頻輸入,但是 mlx-vlm 版本可以。
但當讓模型描述上述圖片時,模型誤認成了一張化學圖:「該圖為卡通風格的插圖,描繪了淺藍色背景下的分子結構。該結構由多個不同顏色和形狀的元素組成,並通過彎曲的黑線連接起來。」
此外,網友 pilooch 稱讚道,該模型完全兼容此前基於 Gemma3 的所有操作。「我將其接入視覺語言模型微調腳本后,程序順利啟動(使用 HF Transformer 代碼)。在單 GPU 運行 LoRa 微調時,E4B 模型在批量大小為 1 的情況下僅佔用 18GB VRAM,而 Gemma-4B 需要 21GB。DeepMind 推出的 Gemma3 系列真不錯,穩居開源視覺語言模型榜首。」
也有開發者表示,「我一直在 AI Studio 里試用 E4B,效果非常好,比 8B 型號的預期要好得多。我正在考慮把它安裝在 VPS 上,這樣就有了其他選擇,不用再使用那些昂貴的 API 了。」
在開發者 RedditPolluter 的測試中,E2B-it 能夠使用 Hugging Face MCP,但其不得不將上下文長度限制從默認的「~4000」增加到「超過」,防止模型陷入無限的搜索循環。它能夠使用搜索功能獲取一些較新型號的信息。
當然,還是比較懷疑小模型的實際用處。「我做過很多實驗,任何小於 27B 的模型基本上都用不了,除非當玩具用。對於小模型,我只能説它們有時能給出不錯的答案,但這還不夠。」
對此,有網友表示,「我發現微型模型(< 5B 參數)的最佳用例是作為沒有 WiFi 時的參考工具。我在飛機上寫代碼時,一直在 MacBook Air 上使用 Qwen 來代替谷歌搜索,它在詢問有關語法和文檔的基本問題時非常有效。」‘
谷歌特別指出,其高效能的核心就在於全新的 MatFormer (Matryoshka Transformer)架構,這是一種為彈性推理而設計的嵌套式 Transformer。它類似「俄羅斯套娃」:一個較大的模型內部嵌套着一個較小但完整的子模型。這種設計允許一個模型在不同任務中以不同「尺寸」運行,實現性能與資源使用的動態平衡。
這種設計將「套娃式表示學習」(Matryoshka Representation Learning)的理念,從嵌入層擴展到了整個 Transformer 架構的各個組件,大幅提升了模型在不同資源環境下的靈活性與適應性。
在對 4B 有效參數(E4B)模型進行 MatFormer 架構訓練的過程中,系統會同時在其中優化一個 2B 有效參數(E2B)子模型,如上圖所示。
這項架構設計同時為開發者帶來了兩大關鍵能力:
預提取模型,開箱即用 。 開發者可根據應用場景自由選擇完整的 E4B 主模型獲得更強性能,也可以直接使用已經預提取好的 E2B 子模型。在保證準確率的前提下,E2B 實現了高達 2 倍的推理速度,尤其適合邊緣設備或算力受限場景。
Mix-n-Match 定製模型。針對不同硬件資源的限制,開發者可以通過 Mix-n-Match 方法,在 E2B 與 E4B 之間自由定製模型大小。該方法通過靈活調整每層前饋網絡的隱藏維度(如從 8192 調整到 16384),並選擇性跳過部分層,從而構建出多種不同規模的模型。
與此同時,谷歌還推出了輔助工具 MatFormer Lab,方便開發者基於多個基準測試結果(如 MMLU)快速挑選並提取出性能最優的模型配置。
谷歌表示,MatFormer 架構還為「彈性推理」奠定了基礎。儘管這一能力尚未在本次發佈的實現中正式上線,但它的設計理念已初步成型:單個部署的 E4B 模型,未來將能在運行時動態切換 E4B 與 E2B 的推理路徑,根據當前任務類型和設備負載,實時優化性能表現與內存佔用。
在最新的 Gemma 3n 模型中,谷歌引入了名為 Per-Layer Embeddings(逐層嵌入,簡稱 PLE) 的創新機制。該機制專為端側部署而設計優化,可顯著提高模型質量,同時不會增加設備加速器(如 GPU/TPU)所需的高速內存佔用。
這樣一來,儘管 E2B 和 E4B 模型的總參數數量分別為 5B 和 8B,但 PLE 允許很大一部分參數(即分佈在各層的嵌入參數)在 CPU 上高效加載和計算。這意味着只有核心 Transformer 權重(E2B 約為 2B,E4B 約為 4B)需要存儲在通常較為受限的加速器內存 (VRAM) 中。
在許多先進的端側多模態應用中,處理長序列輸入(如音頻、視頻流所生成的內容)已成為核心需求。為此,Gemma 3n 引入了 KV Cache Sharing(鍵值緩存共享)機制,加快了長文本推理中「首個 Token」的生成速度,尤其適用於流式響應場景。
具體而言,KV Cache Sharing 對模型的 Prefill 階段進行了優化:中間層中,來自局部與全局注意力機制的中間層 Key 與 Value 會直接共享給所有上層結構。與 Gemma 3 4B 相比,這使 Prefill 性能獲得高達 2 倍的提升。
Gemma 3n 推出了全新高效的視覺編碼器:MobileNet-V5-300M,來提升邊緣設備上的多模態任務表現。
MobileNet-V5 支持多種分辨率(256×256、512×512、768×768),方便開發者根據需求平衡性能與畫質。它在大規模多模態數據上進行訓練,擅長處理多種圖像和視頻理解任務。吞吐率方面,其在 Google Pixel 設備上可實現每秒最高 60 幀的實時處理速度。
這一性能突破得益於多項架構創新,包括基於 MobileNet-V4 的先進模塊、能高大 10 倍擴的深度金字塔架構,以及多尺度融合視覺語言模型適配器等。相較於 Gemma 3 中未蒸餾的 SoViT,MobileNet-V5-300M 在 Google Pixel Edge TPU 上實現了最高 13 倍速度提升(量化后),參數減少 46%,內存佔用縮小 4 倍,同時準確率大幅提升。
音頻處理方面,Gemma 3n 搭載了基於 Universal Speech Model(USM) 的先進音頻編碼器,可對每 160 毫秒的語音生成一個 token(約每秒 6 個 token),並將其作為輸入集成至語言模型中,從而提供更加細緻的語音上下文表示,這為端側應用解鎖了語音識別和語音翻譯功能。
據悉,Gemma 3n 在英語與西班牙語、法語、意大利語、葡萄牙語之間的轉換效果尤為出色。同時,在進行語音翻譯任務時,結合「思維鏈式提示」策略,可進一步提升翻譯質量與穩定性。
參考鏈接:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
https://simonwillison.net/2025/Jun/26/gemma-3n/
本文來自微信公眾號「AI前線」,整理:褚杏娟,36氪經授權發佈。