谷歌全家桶，都被新模型「污染」了

2026-05-27 14:02

距離谷歌的Gemini 3.5 Flash發佈已經一周多了。

皮查伊在谷歌發佈會上口口聲聲地表示，Gemini 3.5 Flash性能比3.1 Pro還強，説它是Agent時代的底座。

可結果呢？網上對Gemini 3.5 Flash的評價，除了速度快這唯一的優點外，全是缺點。輸出的內容錯誤多、囉嗦、干活token消耗量爆炸……

谷歌Antigravity負責人瓦倫·莫漢（Varun Mohan）在5月25日發帖稱，谷歌已增設Gemini 3.5 Flash (Low) 模型用於優化資源消耗。

瓦倫表示，根據谷歌的內部測試數據，在處理簡單任務時，Gemini 3.5 Flash (Low) 相比Gemini 3.5 Flash (Medium) 可以減少約45%的token生成量。在軟件工程（SWE）任務上的表現，Gemini 3.5 Flash (Low) 普遍優於上一代旗艦模型Gemini 3 Flash (High)。

然而網友們並不買賬，現在，瓦倫的評論區已經被網友們的冷嘲熱諷徹底攻佔。

熱評第一條是「你們的產品測試過嗎？看起來你們是拿我們在做測試啊！」

第二條是「能否也解決一下圖像模型的生成數量限制問題？你們的能力需要對標Codex。我使用Codex可以生成1000張圖像，但在谷歌的高級套餐下，我只能使用Antigravity生成24張。」

Gemini 3.0 Pro出來的時候，所有人都在為谷歌鼓掌，OpenAI甚至因此拉響紅色警報，以防止被谷歌超越。

然而到了 3.5 Flash，谷歌成了小丑，眼瞅着就要步入Meta的后塵。

那我們不禁要問，谷歌，你這是咋了？

Gemini 3.5的表現沒有達到預期

網上對Gemini 3.5 Flash的評價非常一致，很快，但是不夠好。

皮查伊在發佈會上反覆強調模型多便宜，然而現實中情況截然相反。

按照官方定價，Gemini 3.5 Flash每百萬輸入token收費1.5美元，每百萬輸出token收費9美元，確實比Claude Opus 4.7的5美元和25美元便宜。

但這只是價格表，真正決定成本的，是完成一個任務到底要消耗多少token。

Artificial Analysis在完整評估套件中測試發現，Gemini 3.5 Flash完成全部任務的總成本是1552美元，而Gemini 3 Flash只需要282美元，前者是后者的5.5倍。

哪怕是和Gemini 3.1 Pro相比，Flash的成本也高出75%，大約是870美元。更尷尬的是，Gemini 3.5 Flash完成任務的費用，比GPT-5.5 medium還貴。

原因在於turn count，也就是完成任務需要的輪次。

在Agent評估中，Flash模型平均每個任務需要49輪對話。每一輪對話，它都會把完整的對話歷史輸入給模型，token成本因此暴增。

而這樣的任務，GPT-5.5或者Opus 4.7，差不多隻用20輪就能完成。

所以谷歌説的「成本不到一半」，指的是單位token價格。但對用户來説，Gemini 3.5 Flash一點都不便宜。

除了輪次多了，Gemini 3.5 Flash的輸出非常囉嗦。

比如以前你問Gemini 3.1 Pro一個技術問題，模型會直接給出代碼和簡短解釋。

換成3.5 Flash之后，同樣的問題，模型會先解釋背景，再列舉三種可能的方案，然后逐一分析優缺點，最后纔給出代碼。

看起來很全面，實際上大部分內容都是廢話。更要命的是，這些廢話都算token，都要收費。

複雜任務的token消耗更是爆炸。

有用户反映，讓Flash執行一個多步驟的代碼重構任務，模型反覆在不同文件之間跳轉，每次跳轉都要重新加載上下文，最終消耗的token是預期的三倍以上。

還有用户表示，只是輸入了一個複雜的prompt，就直接觸發了5小時使用限制。

谷歌在I/O 2026之后悄悄修改了AI Pro訂閲的額度規則，從固定消息數，改成了基於計算資源的配額（compute-based quota）。

就是説你一個任務，如果讓模型思考得多，那即使它給你回覆的內容不變，花的錢也比以前更多。

那麼問題來了，我怎麼知道一個任務會讓模型消耗多少算力？而且，我也推算不出來我還剩多少算力。

可能我只是跟它打個招呼，就花掉很多token。讓它執行一個長周期任務，反而不怎麼消耗token。

有用户在外網論壇上直接把新限制稱為「騙局」，稱單個prompt就消耗了13%的配額，某些Gemini AI Plus功能一次能燒掉將近30%。

那為什麼Gemini 3.5 Flash表現會這麼一般？

答案藏在benchmark里，Flash的表現非常不均衡。

Gemini 3.5 Flash在Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld這類Agent、工具調用、代碼執行榜單上表現不錯。Terminal-Bench 2.1拿到76.2%，MCP Atlas拿到83.6%，都算是頭部成績。

這些榜單測的是模型能不能按照指令調用工具、執行命令、完成多步驟操作。Flash在這些方面確實有優勢。

但在更接近「聰明不聰明」的綜合推理榜上，它的表現就有點難看了。

Humanity‘s Last Exam是40.2%，低於Gemini 3.1 Pro的44.4%和Claude Opus 4.7的46.9%。ARC-AGI-2是72.1%，低於Gemini 3.1 Pro的77.1%和GPT-5.5的84.6%。GDPval-AA也低於Claude Opus和GPT-5.5。

也就是説，Gemini 3.5 Flash有點「蠢」。你給它任務它能去干活，但它「智力不夠」。它做不了現在最火的複雜推理、長鏈分析、創意判斷。

記憶方面也有問題。

在谷歌的宣傳中，Gemini 3.5 Flash有最高1M token上下文。但模型卡里的MRCR v2長上下文測試顯示，128k平均成績是77.3%，到1M pointwise只有26.6%。

Gemini 3.5 Flash雖然能一口吃下很多內容，但是到用的時候就開始糊塗了。

Artificial Analysis的獨立測試直接打臉谷歌。

在編程指數（Coding Index）上，Artificial Analysis給Flash打了45.0分，低於Gemini 3.1 Pro的56.5分，更遠低於GPT-5.5。

Gemini污染了谷歌的入口，導致模型問題會污染Google的所有產品體驗

谷歌I/O 2026上，皮查伊宣佈，Gemini是谷歌全產品宇宙的連接層。

也就是説，Gemini 3.5 Flash嵌入到了谷歌絕大多數產品里。

外媒表示，「Gemini正在變得無法避開」。

過去，一個AI不好用，你可以不用。你覺得ChatGPT不行，可以換Claude，還覺得不好你可以壓根不用AI。

但谷歌把Gemini放進所有入口以后，Gemini 3.5 Flash的糟糕體驗，污染了谷歌所有產品。

最典型的例子是AI Overview和AI Mode的「disregard/ignore/stop」故障。

用户搜索「disregard」「ignore」「stop」等單詞時，谷歌AI Overview會把它們誤判成指令，導致搜索結果異常或空白。

有用户在X上發帖説，搜索「disregard」這個詞，AI Overview不是給出定義，而是回覆「明白了！我會忽略之前的提示，重新開始。」

搜索「stop」，AI Overview説「沒問題。我已經停止當前操作。」

搜索「ignore」，AI Overview説「收到。消息已忽略。」

嵌入Gemini 3.5 Flash以后，AI Overview把這些單詞當成了對話指令，導致AI Overview把這些單詞當成了對話指令。

問題不只出現在這幾個詞上。經過網友測試，「remember」「start」「finished」「forget」這些詞也會觸發類似故障。即便在搜索詞里加上「definition」，也無法讓AI Overview迴歸正常。

谷歌方面迴應稱，這個問題與I/O的新搜索發佈無關，是AI Overviews自身問題，團隊正在修復。

搜索是谷歌的命根子，一旦搜索出了問題，所有人都只會覺得「谷歌要涼了」。

所以現在的壓力給到了Gemini 3.5 Pro。

外界真正想看的，不是谷歌能不能把AI塞進所有入口。這個問題已經有答案了，谷歌確實做到了。外界想看的是，Google能不能拿出一個足夠聰明、足夠穩定、足夠有説服力的旗艦模型，重新證明自己在模型能力上沒有掉隊。

這個任務Flash完成不了。它是一個執行型模型，速度快，能干活，但智力不夠。它適合做Agent架構里的子任務執行器，配合強規劃器使用。但它不是旗艦，它撐不起谷歌在AI時代的門面。

最終只能落到3.5 Pro。

目前，Gemini 3.5 Pro還在內部測試中。官方博客表示，「我們也在努力開發3.5 Pro。它已經在內部使用，我們期待下個月（6月）推出。」

谷歌產品負責人圖爾西·多希（Tulsee Doshi）表示，「3.5 Pro像項目經理，負責想清楚事情該怎麼做；Flash像執行團隊，負責把一個個具體任務跑完。真正需要推理和規劃的地方，要交給更大的Pro；只是需要快速調用工具、批量處理任務的地方，用Flash就夠了。。」

這個架構設計本身沒問題，問題在於Pro還沒出來，很多場景只能讓Flash一個人苦苦硬撐。

所以Gemini 3.5 Pro變成了一個二次驗貨節點。

如果3.5 Pro出來后表現還不錯，那谷歌高低還能圓過去。

話術我都想好「全線嵌入Flash是我們一個嘗試，給大家造成了一些不好的產品體驗，不過我們已經發布了3.5 Pro，絕對好用，歡迎大家體驗」。

Flash的問題可以被理解為一種妥協，Pro纔是真正的實力展示。

但如果3.5 Pro表現不好，那谷歌在AI這塊可以説是全面潰敗。

AI Overview有低級錯誤、ChatBot囉嗦、WorkSpace消耗token過高導致價格太貴、Antigravity沒什麼起色。所有這些產品都會被Gemini拖累，從優勢變成負擔。

谷歌現在的處境很微妙。它有現金、有基礎設施、有DeepMind。但自從3.0 Pro之后，它就一直缺能打的旗艦模型。

3.5 Pro要補的就是這個缺口。如果3.5 Pro做不到，谷歌真就有可能步入Meta的后塵。

谷歌正在成為硬件公司

不過谷歌並非一敗塗地，相反，在硬件這塊，谷歌反而支稜起來了。

谷歌2026年Q1財報顯示，公司收入1099億美元，同比增長22%。谷歌Search & Other收入604億美元，同比增長19%。YouTube廣告收入約99億美元，同比增長11%。谷歌Cloud收入200億美元，同比增長63%。

這説明谷歌仍然是一臺賺錢機器。

這份財報里最亮眼的數字，來自於谷歌Cloud的63%增長。

皮查伊在財報電話會上説，Cloud的增長是「強勁需求」的結果。其實這句話的本質，就是在説谷歌的TPU硬件和數據中心賣得非常好。

基於谷歌模型構建的AI解決方案同比增長近800%。Gemini Enterprise的付費月活用户環比增長40%。通過API使用的AI token增長到每分鍾160億個，比第四季度的100億增長了60%。

Cloud的backlog（已經簽下，但還沒有確認成收入的合同金額）在本季度翻了一番，達到4620億美元。

皮查伊説，「顯然，我們在短期內受到算力限制。如果我們能夠滿足需求，我們的Cloud收入會更高。所以我們正在度過這個時刻，我們正在投資，但我們有一個強大的長期規劃框架……我們看到了前所未有的機會。」

公司預計在未來24個月內完成50%的backlog。

雖然谷歌基座模型不行，編程工具Antigravity表現也差強人意，但TPU這塊表現太好了。

我都懷疑，谷歌是不是忘了自己其實是一個互聯網公司，不是一個硬件公司？

Anthropic、Meta等外部大客户正在租用或採購谷歌TPU資源。

Anthropic在5月宣佈與谷歌和Broadcom簽署了新的多年期協議，擴大使用谷歌Cloud的TPU。

這筆交易讓Anthropic獲得了多達100萬個谷歌AI計算芯片的使用權，價值數百億美元，預計將在2026年帶來超過1吉瓦的容量上線。

1吉瓦的電廠，大約能給35萬戶家庭供電。

谷歌在Google Cloud Next 2026上宣佈了第八代TPU，首次採用雙芯片方法，分別針對訓練和推理設計專用架構，TPU 8t和TPU 8i。

尤其是TPU 8t，它是專為大規模、計算密集型的訓練工作準備的，具有更大的計算吞吐量和更多的scale-up帶寬。

TPU 8i則是專為低延迟推理工作負載設計，Agent干活要反覆「思考、調用工具、再思考」。每一步慢一點，幾十上百步下來就會很慢，所以低延迟對Agent特別重要。

或者你可以這麼理解，TPU 8t是給模型用的。

訓練前沿大模型就是讓幾萬塊芯片一起跑馬拉松。問題不是單塊芯片夠不夠快，而是這幾十萬塊芯片能不能一直持續地跑。

比如説某根網絡線壞了、某塊芯片不亮了、系統需要重啟檢查點，那麼整個訓練集群就會因此浪費掉大量時間。

所以Google説TPU 8t的重點不是單純「算力更強」，而是讓訓練過程更少中斷。

谷歌説，TPU 8t的設計目標，是goodput超過97%。

所謂goodput，你可以理解成真正用於干活的時間。

比如一臺機器理論上工作100小時，但中間故障、等待、重啟浪費了10小時，那有效工作時間只有90小時，goodput就是90%。

Google説TPU 8t目標超過97% goodput，意思是它希望大部分時間都真的在訓練，而不是在等修復、等重啟、等網絡恢復。

爲了實現超過97%的goodput，谷歌給TPU 8t加入了很多橫向提升性能的功能。比如系統發現哪里壞了，可以自動繞路，不用人手工停機修。

TPU 8i則是給Agent用的。

Agent推理是一個非常麻煩的事情，前文提到，Agent不是回答一次就結束了的，它會反覆思考、查資料、調用工具、寫代碼、再檢查、再修正。

一次任務可能要調用模型幾十次甚至上百次。

所以TPU 8i重點是讓這些調用盡可能快。

它有384MB板載SRAM，可以理解成芯片旁邊有一片非常快的小記憶區。Agent短期記憶就保留在這里，那麼當Agent需要用這些記憶的時候，就可以直接從這里面拿，從而減少來回搬數據的時間。

它還用了更多CPU主機，也就是讓旁邊有更多「調度員」幫忙安排數據輸入輸出、任務協調。Agent跑起來不只是模型算一下，還要不斷讀數據、發請求、調工具、拿結果，CPU就是幫TPU處理這些雜活的。

微軟曾經有過這麼一個預測，到2028年將有13億個Agent投入運行，這纔是為什麼，谷歌要把TPU分成8t和8i，Agent的歸Agent，訓練的歸訓練。

和谷歌傳統的互聯網業務相比，TPU反而是他們現在最硬的敍事。

但問題就在於，Anthropic能用TPU造出Claude Opus 4.7以及現在的Mythos，可谷歌只拿出來了Gemini 3.5 Flash。

還真就是橘生淮南則為橘，生於淮北則為枳。

本文來自微信公眾號「字母AI」，作者：苗正，36氪經授權發佈。

谷歌全家桶，都被新模型「污染」了

Gemini 3.5的表現沒有達到預期

Gemini污染了谷歌的入口，導致模型問題會污染Google的所有產品體驗

谷歌正在成為硬件公司

推薦文章

一周財經日曆 | AI海嘯來襲！英偉達GTC疊加「亞洲最大AI科技展」ComputeX登場！5月大小非農即將披露；美團財報壓軸出場

港股周報 | 5月收官！華為「韜定律」引爆半導體；從暴漲23%到跳水，智譜上演「天地板」式震盪；泡泡瑪特大漲，段永平日賺10億

美股機會日報 | 戴爾盤前狂飆34%！大幅上調全年業績指引；字節擬採購數百萬顆高通AI ASIC芯片；太空概念突發利空，盤前集體回落

打新攻略 | 中籤即賺1.7萬港元？深演智能三日暴漲逾700%！天辰生物等火熱招股中，下一隻爆款新股是誰？

華盛早報 | 美伊據悉再延長休戰60天！Anthropic H輪估值9650億美元反超OpenAI；戴爾AI收入暴增，績后飆升近40%

5月29日外盤頭條：Anthropic新一輪融資后估值達9650億美元 機構料美伊達成協議概率較高

美股機會日報 | 4月PCE數據將出爐！通脹或創近三年新高；特朗普擬入股無人機公司，UMAC盤前狂飆30%；軟件股盤前集體反攻

一圖看懂 | 小鵬汽車Q1營收同比下降17.6%，Q2交付和營收預期強勁，預計Robotaxi、人形機器人年內實現量產

5月29日外盤頭條：Anthropic新一輪融資后估值達9650億美元機構料美伊達成協議概率較高