2G 內存跑Gemma 3n完整版，全球首個10B內模型殺瘋LMArena：1300分碾壓記錄

2025-06-27 21:06

當地時間 6 月 26 日，在上個月的 Google I/O 上首次亮相預覽后，谷歌如今正式發佈了 Gemma 3n 完整版，可以直接在本地硬件上運行。

「迫不及待地想看看這些 Android 的性能！」正式發佈后有開發者説道。

Gemma 系列是谷歌推出的一組開源大模型。與 Gemini 不同：Gemma 面向開發者，可供下載和修改，而 Gemini 是谷歌的封閉專有模型，更注重性能與商業化。

據悉，此次正是發佈的 Gemma 3n 現已具備輸入圖像、音頻和視頻的能力，支持文本輸出，還能在最低 2GB 內存的設備上運行，在編程與推理等任務上據稱表現更佳。具體看，主要更新亮點包括：

天生多模態設計：原生支持圖像、音頻、視頻和文本的輸入，以及文本輸出。

端側優化設計：Gemma 3n 着眼於運行效率，提供兩種基於「有效參數」的尺寸：E2B 和 E4B。雖然其原始參數量分別為 5B 和 8B，但通過架構創新，它們運行時的內存佔用量僅相當於傳統的 2B 和 4B 參數模型，並且最低僅需 2GB（E2B）和 3GB（E4B）內存即可運行。

至於基準測試，Gemma 3n 的 E4B 模型成為首個在參數規模低於 10 B 的前提下，LMArena 測評得分突破 1300 的模型，表現優於 Llama 4 Maverick 17 B、GPT 4.1-nano、Phi-4。

效果好不好？

「Gemma 3n 也是我見過的任何模型中首發最全面的：谷歌與「AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM」合作，因此現在有幾十種方法可以嘗試。」Django Web 聯合創建者 Simon Willison 説道。

Willison 在 Mac 筆記本電腦上分別運行了兩個版本。在 Ollama 上，4B 型號的 7.5GB 版本模型畫了這樣一幅畫：

然后，他使用 15.74 GB 的 bfloat16 版本模型得到了下面的一幅圖：

「7.5GB 和 15GB 模型量化之間存在如此顯著的視覺差異。」Willison 説道。他還指出，Ollama 版本似乎尚不支持圖像或音頻輸入，但是 mlx-vlm 版本可以。

但當讓模型描述上述圖片時，模型誤認成了一張化學圖：「該圖為卡通風格的插圖，描繪了淺藍色背景下的分子結構。該結構由多個不同顏色和形狀的元素組成，並通過彎曲的黑線連接起來。」

此外，網友 pilooch 稱讚道，該模型完全兼容此前基於 Gemma3 的所有操作。「我將其接入視覺語言模型微調腳本后，程序順利啟動（使用 HF Transformer 代碼）。在單 GPU 運行 LoRa 微調時，E4B 模型在批量大小為 1 的情況下僅佔用 18GB VRAM，而 Gemma-4B 需要 21GB。DeepMind 推出的 Gemma3 系列真不錯，穩居開源視覺語言模型榜首。」

也有開發者表示，「我一直在 AI Studio 里試用 E4B，效果非常好，比 8B 型號的預期要好得多。我正在考慮把它安裝在 VPS 上，這樣就有了其他選擇，不用再使用那些昂貴的 API 了。」

在開發者 RedditPolluter 的測試中，E2B-it 能夠使用 Hugging Face MCP，但其不得不將上下文長度限制從默認的「~4000」增加到「超過」，防止模型陷入無限的搜索循環。它能夠使用搜索功能獲取一些較新型號的信息。

當然，還是比較懷疑小模型的實際用處。「我做過很多實驗，任何小於 27B 的模型基本上都用不了，除非當玩具用。對於小模型，我只能説它們有時能給出不錯的答案，但這還不夠。」

對此，有網友表示，「我發現微型模型（< 5B 參數）的最佳用例是作為沒有 WiFi 時的參考工具。我在飛機上寫代碼時，一直在 MacBook Air 上使用 Qwen 來代替谷歌搜索，它在詢問有關語法和文檔的基本問題時非常有效。」‘

核心技術能力有哪些？

MatFormer 架構是核心

谷歌特別指出，其高效能的核心就在於全新的 MatFormer （Matryoshka Transformer）架構，這是一種為彈性推理而設計的嵌套式 Transformer。它類似「俄羅斯套娃」：一個較大的模型內部嵌套着一個較小但完整的子模型。這種設計允許一個模型在不同任務中以不同「尺寸」運行，實現性能與資源使用的動態平衡。

這種設計將「套娃式表示學習」（Matryoshka Representation Learning）的理念，從嵌入層擴展到了整個 Transformer 架構的各個組件，大幅提升了模型在不同資源環境下的靈活性與適應性。

在對 4B 有效參數（E4B）模型進行 MatFormer 架構訓練的過程中，系統會同時在其中優化一個 2B 有效參數（E2B）子模型，如上圖所示。

這項架構設計同時為開發者帶來了兩大關鍵能力：

預提取模型，開箱即用。開發者可根據應用場景自由選擇完整的 E4B 主模型獲得更強性能，也可以直接使用已經預提取好的 E2B 子模型。在保證準確率的前提下，E2B 實現了高達 2 倍的推理速度，尤其適合邊緣設備或算力受限場景。

Mix-n-Match 定製模型。針對不同硬件資源的限制，開發者可以通過 Mix-n-Match 方法，在 E2B 與 E4B 之間自由定製模型大小。該方法通過靈活調整每層前饋網絡的隱藏維度（如從 8192 調整到 16384），並選擇性跳過部分層，從而構建出多種不同規模的模型。

與此同時，谷歌還推出了輔助工具 MatFormer Lab，方便開發者基於多個基準測試結果（如 MMLU）快速挑選並提取出性能最優的模型配置。

谷歌表示，MatFormer 架構還為「彈性推理」奠定了基礎。儘管這一能力尚未在本次發佈的實現中正式上線，但它的設計理念已初步成型：單個部署的 E4B 模型，未來將能在運行時動態切換 E4B 與 E2B 的推理路徑，根據當前任務類型和設備負載，實時優化性能表現與內存佔用。

大幅提升內存效率的關鍵

在最新的 Gemma 3n 模型中，谷歌引入了名為 Per-Layer Embeddings（逐層嵌入，簡稱 PLE）的創新機制。該機制專為端側部署而設計優化，可顯著提高模型質量，同時不會增加設備加速器（如 GPU/TPU）所需的高速內存佔用。

這樣一來，儘管 E2B 和 E4B 模型的總參數數量分別為 5B 和 8B，但 PLE 允許很大一部分參數（即分佈在各層的嵌入參數）在 CPU 上高效加載和計算。這意味着只有核心 Transformer 權重（E2B 約為 2B，E4B 約為 4B）需要存儲在通常較為受限的加速器內存 (VRAM) 中。

大幅提升長上下文處理速度

在許多先進的端側多模態應用中，處理長序列輸入（如音頻、視頻流所生成的內容）已成為核心需求。為此，Gemma 3n 引入了 KV Cache Sharing（鍵值緩存共享）機制，加快了長文本推理中「首個 Token」的生成速度，尤其適用於流式響應場景。

具體而言，KV Cache Sharing 對模型的 Prefill 階段進行了優化：中間層中，來自局部與全局注意力機制的中間層 Key 與 Value 會直接共享給所有上層結構。與 Gemma 3 4B 相比，這使 Prefill 性能獲得高達 2 倍的提升。

全新視覺編碼器，提升多模態任務表現

Gemma 3n 推出了全新高效的視覺編碼器：MobileNet-V5-300M，來提升邊緣設備上的多模態任務表現。

MobileNet-V5 支持多種分辨率（256×256、512×512、768×768），方便開發者根據需求平衡性能與畫質。它在大規模多模態數據上進行訓練，擅長處理多種圖像和視頻理解任務。吞吐率方面，其在 Google Pixel 設備上可實現每秒最高 60 幀的實時處理速度。

這一性能突破得益於多項架構創新，包括基於 MobileNet-V4 的先進模塊、能高大 10 倍擴的深度金字塔架構，以及多尺度融合視覺語言模型適配器等。相較於 Gemma 3 中未蒸餾的 SoViT，MobileNet-V5-300M 在 Google Pixel Edge TPU 上實現了最高 13 倍速度提升（量化后），參數減少 46%，內存佔用縮小 4 倍，同時準確率大幅提升。

支持語音識別與語音翻譯

音頻處理方面，Gemma 3n 搭載了基於 Universal Speech Model（USM）的先進音頻編碼器，可對每 160 毫秒的語音生成一個 token（約每秒 6 個 token），並將其作為輸入集成至語言模型中，從而提供更加細緻的語音上下文表示，這為端側應用解鎖了語音識別和語音翻譯功能。

據悉，Gemma 3n 在英語與西班牙語、法語、意大利語、葡萄牙語之間的轉換效果尤為出色。同時，在進行語音翻譯任務時，結合「思維鏈式提示」策略，可進一步提升翻譯質量與穩定性。

參考鏈接：

https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/

https://simonwillison.net/2025/Jun/26/gemma-3n/

本文來自微信公眾號「AI前線」，整理：褚杏娟，36氪經授權發佈。

2G 內存跑Gemma 3n完整版，全球首個10B內模型殺瘋LMArena：1300分碾壓記錄

效果好不好？

核心技術能力有哪些？

MatFormer 架構是核心

大幅提升內存效率的關鍵

大幅提升長上下文處理速度

全新視覺編碼器，提升多模態任務表現

支持語音識別與語音翻譯

推薦文章

美股機會日報丨貝森特稱九月或降息50個基點；中國資產爆發！網易盤前漲超5%，阿里巴巴盤前漲超3%

7月關税收入達創紀錄的277億美元，特朗普稱這對「我們國家來説不可思議」

一圖看懂 | 騰訊Q2營收、淨利齊超預期！AI投入效益加速顯現，毛利率提升至57%

特朗普家族加密貨幣財富暴增：與PancakeSwap合作發行USD1，家族持幣市值約45億美元

騰訊打頭陣，科網股中報季來襲！業績分化成市場焦點？

AI競賽太燒錢！CoreWeave(CRWV.US)Q2虧損激增，Q3指引令人失望

量子計算龍頭Rigetti Computing(RGTI.US)Q2營收不及預期 推出多芯片量子計算機

8月13日外盤頭條：特朗普考慮起訴鮑威爾 抨擊高盛對關税判斷 美國務卿與俄外長通話 木頭姐大舉買入Block

量子計算龍頭Rigetti Computing(RGTI.US)Q2營收不及預期推出多芯片量子計算機

8月13日外盤頭條：特朗普考慮起訴鮑威爾抨擊高盛對關税判斷美國務卿與俄外長通話木頭姐大舉買入Block