繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

谷歌Gemma 4實測:手機斷網也能用,但邏輯題竟全軍覆沒

2026-04-09 11:03

有一説一,最近這AI大模型圈,屬實有點抽象了。

各家都在悶聲鼓搗那些偏向商業落地的應用,幾家大廠們滿腦子都是怎麼把OpenClaw的概念融入到自家的產品里,真正讓人覺得眼前一亮的底層技術突破反倒不怎麼看得到了。

谷歌拍了拍腦袋,尋思這樣不得勁啊。

於是乎,就在前幾天,谷歌推出了新一代開源模型Gemma 4,包括E2B、E4B、26B、31B四個規格,其中 E2B、E4B 兩個較小模型直接可以在手機、樹莓派等設備上部署運行,26B、31B也只需要一張消費級顯卡就能跑起來。

(圖源:雷科技)

要知道,前兩年吵得沸沸揚揚的AI手機,大家買回家用了半年才發現,超過九成的核心功能依然得依靠網絡把數據傳到雲端服務器才能實現,一旦斷網就是個啞巴,這實在讓人覺得差點意思。

谷歌這邊就表示,Gemma 4的發佈代表了移動設備端AI的重大進步,它為手機、平板、筆記本電腦等端側設備帶來了強大的多模態功能,可以讓用户體驗到過去只有雲端先進模型上才能體驗的高效處理性能。

又來個以小搏大嗎?有點意思。

爲了看看這玩意的真實成色,小雷也去下載了谷歌發佈的最新模型進行測試,接下來就給大家説説里面的亮點吧。

谷歌要以小搏大

為什麼谷歌這次能引起這麼大的轟動?

要搞清楚這點,我們就要先搞清楚這個模型是什麼。

Gemma 4 E2B/E4B是谷歌利用MatFormer架構打造的輕量化端側大模型,它藉由PLE和Hybrid Attention結構實現了長上下文和低內存消耗設計,內存佔用與傳統的2B和4B模型相當,最低只要3.2GB內存就能正常調用。

(圖源:谷歌)

其次,我們要搞清楚這個模型能做什麼。

過去的手機端大模型,大多是簡單粗暴地把雲端模型切掉一大部分參數,然后硬塞進手機里,這就導致它們往往是個偏科生,只能做點簡單的文字問答。

但這次Gemma 4的E2B和E4B型號徹底改變了思路,就像上面説的那樣,它們從底層架構開始就採用了原生多模態設計。

原生多模態就是説,這個模型原生支持圖像、音視頻等多種輸入模態,它不需要先把你説的話翻譯成文字再慢慢理解,而是能直接聽懂語氣和語意;它在看圖的時候也不需要把高分辨率的照片暴力壓縮,而是能直接看清畫面里的細節。

(圖源:谷歌)

至少理論上是這樣的。

最后,我要怎樣做,才能用上Gemma 4呢?

放在一年前,想在手機上部署端側大模型其實是一件異常複雜的事情,往往還要藉助Linux虛擬機的幫助才能實現,雷科技曾經還為此推出過一篇教程,因此大家會有這樣的疑問也是很合理的。

但是現在,就沒有這個必要了。

Google在去年低調上線了一款新應用,名為Google AI Edge Gallery,支持用户在手機上直接運行來自Hugging Face平臺的開源AI模型,這是Google首次嘗試將輕量AI推理帶入本地設備。

(圖源:谷歌)

目前該應用已在Android平臺開放下載,感興趣的讀者可以直接前往Play Store下載體驗。在完成大模型加載后,用户就可以利用這款應用實現對話式AI、圖像理解以及提示詞實驗室功能,甚至可以導入自定義LiteRT格式模型。

無需聯網,直接調用手機本地算力完成任務,就是這麼簡單。

更適合移動設備體質

接下來,就輪到萬衆期待的測試環節了。

如圖所示,谷歌為這款應用默認準備了九款模型,其中有自家的Gemma系列,也有千問和深度求索的開源模型,我們選擇了目前最強的Gemma 4-E4B、前代Gemma 3n-E4B、千問的Qwen2.5-1.5B和DeepSeek-R1-1.5B進行測試。

首先是一系列經典的邏輯問題:

Q:Strawberry一詞中有多少個字母「r」?

這一題看起來簡單,卻實實在在難倒過諸多AI大模型。

實測下來,通過谷歌部署的這一系列模型,全部都會回答「2個」,倒是我另外部署的Qwen3-4B GGUF能給出正確答案「3個」,只是莫名其妙的反覆思考讓它整整生成了兩分半鍾,挺浪費時間的。

(圖源:雷科技)

Q:倆父子釣了三條魚,每個人都分到一條,這是咋回事?

這個就更絕了,愣是沒有一個能答對的,甚至連我在現實中問同事,也至少有一半是反應不過來的,只能説這種玩文字遊戲的邏輯題目,對於人和大模型的專注度都是一種考驗。

(圖源:雷科技,從左到右:Gemma 4、Gemma 3n、DS R1、Qwen2.5)

Q:有三個人 A、B、C。其中一個是騎士(只說真話),一個是無賴(只說假話),一個是間諜(可説真話也可説假話)。

A 説:‘我是騎士。’

B 説:‘A 説的是真話。’

C 説:‘B 是間諜。’

已知三人身份各不相同,請推理出 A、B、C 分別是誰,並説明理由。

這回Gemma 4經過一系列的窮舉推理,總算是拿捏了這道題目,總耗時59s,倒也不算長,至於其他三款大模型,除了一本正經胡說八道的,就是自己陷入思考過程無限循環的。

(圖源:雷科技,從左到右:Gemma 4、Gemma 3n、DS R1、Qwen2.5)

從結果來看,小參數確實會顯著降低模型的邏輯思考能力,思考功能可以在一定程度上降低AI幻覺產生的可能性,但也因此會增加生成所需的時間。

然后是一道比較簡單的文學誤導題:

Q:「種豆南山下」的前一句是什麼?

事實上,這是出自陶淵明《歸園田居·其三》的首句詩,並沒有前一句,正好能看看這幾款小參數模型是否存在爲了回答問題編造數據的現象。

結果是全錯,論給人陶淵明整成現代詩人這一塊。

接下來,是一個簡單的文本處理任務。

具體來説,我這邊提供了2500字左右的文章,希望他們能夠給出對應的文章總結。

其中,只有Gemma 3n-E4B和Gemma 4-E4B算是能完成任務,但是前者耗時將近兩分鍾,而且給出的答案抓不住重點,后者給出來的答案更加簡明扼要。

至於參數最小的DS R1-1.5B,根本就給不出答覆。

(圖源:雷科技,從左到右:Gemma 4、Gemma 3n、DS R1、Qwen2.5)

從以上四輪測試來看,在文本處理、邏輯推理能力上,Gemma 4-E4B算是有小幅提升,但是在生成速度、回覆成功率上其實是領先不少的,只能説深度思考顯然是不適合本地模型的。

不過Gemma 3n並不是單純的文本大模型,人家可是罕有的小參數多模態大模型。

先測試一下僅限Gemma的Ask Audio,我導入了一份21分鍾的wav音頻,可以看到目前最多支持上傳30s內容,語音轉文字出來的內容和原音頻幾乎沒有關係,目前可用性挺一般的。

(圖源:雷科技)

接着是Ask Image,我可以通過隨手拍攝或者上傳照片的方式,向Gemma 4提問。

實測下來,Gemma 4對於圖片里的元素識別準確了不少,基本都能完整複述出圖片里的元素,只是它對於動漫角色依然是一竅不通,諸如花卉識別這類應用也不精準,只有比較常見的食物、硬件這類可以識別出來。

(圖源:雷科技)

至於Agent Skills...這玩意除了倆文字遊戲外,目前幾個功能都是需要聯網實現的,和端側大模型關係不大。

(圖源:雷科技)

你別說,在功能的豐富程度上,Gemma 4確實贏太多了。

端側AI的拐點終於來了

好了,經過我這幾天的輪番折騰,是時候給谷歌這次的Gemma 4下個結論了。

在我看來,這玩意兒確實可能會引發本地Agent浪潮。

在基礎的文本問答和邏輯能力上,Gemma 4並沒有做出什麼突破,但是它的思考鏈更加合理,生成速度對比前代提升了1.5x-2x,這在應對很多不算複雜的日常問題時已經綽綽有余。

而且它的優點也很突出,除了兼容一系列Agent Skills外,Gemma 4-E4B甚至可以做到音頻和圖片的原生輸入,雖説前者目前限制多多,后者理解能力有待提升,但是這都是人無我有的核心價值。

(圖源:谷歌)

更重要的是,這件事並不是谷歌一家在做。

爲了讓這兩個模型真的跑起來,谷歌這次是把整條硬件鏈路一起拉進來了,從Pixel 團隊,到高通、聯發科,再到ARM、英偉達都參與了優化,這也讓Gemma 4可能成為市面上第一個能夠正常調用NPU的端側大模型

過去一年,手機大模型的賽道一直處於不温不火的尷尬期。

如今谷歌直接把桌子掀了,把性能強悍的多模態模型塞進手機,必將逼迫國內廠商加快端側技術的迭代速度。

可以預見,在未來的大半年時間里,一場圍繞着手機本地算力的反擊戰即將打響。而當Agent可以調用本地模型完成推理、生成、任務執行,一臺足夠安全、足夠懂你且無需連網的AI手機或許離我們已經不遠了。

而在那一天到來之前,Gemma 4絕對是你當下最值得上手體驗的選擇。

本文來自微信公眾號「雷科技」,作者:雷科技,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。