熱門資訊> 正文
2026-03-23 21:03
硅谷正在流行一個新詞:Tokenmaxxing(Token最大用量)。
在Meta和OpenAI內部,工程師們開始在AI使用排行榜上展開競爭。根據外媒報道,甚至有一名工程師一周消耗了2100億個Token,相當於33個維基百科的文本量。有人每月僅AI賬單就高達15萬美元。
一位愛立信駐斯德哥爾摩的工程師花在Claude上的錢比自己的工資還高,但賬單由公司承擔。Token預算正在成為工程師的新型工作福利,「就像免費零食或免費午餐曾經那樣」。
Shopify CEO Tobi Lütke早在2025年4月就發佈內部備忘錄,宣佈「AI使用是Shopify的基線預期」,要求所有團隊在申請新人力之前必須先證明AI無法完成該工作,並將AI使用納入績效考覈。Meta隨后宣佈從2026年起將「AI驅動的影響力」正式納入所有員工的績效評估。
當Token消耗量開始出現在KPI里,它已經成爲了一種組織行為信號。
與此同時,產業層面的信號同樣密集。3月16日,黃仁勛在英偉達GTC大會上把Token定義為「AI時代的基石」,稱它將成為「最值錢的大宗商品」。次日,阿里巴巴宣佈成立Alibaba Token Hub事業羣,由CEO吳泳銘直接負責,定位是「創造Token、輸送Token、應用Token」。
圖:黃仁勛在GTC演講中展示了Token成本與收入關係的圖表,將數據中心分為免費層、中級層、高級層和Premium層來分配算力,並展示Vera Rubin芯片相比Grace Blackwell帶來5倍收入提升的預測。
一年前,Token還只是開發者才關心的技術計量單位。現在,它成爲了芯片公司用來定義產品價值的語言,也是互聯網巨頭圍繞它重組事業羣的理由,更是成爲了工程師offer里的新型福利和核心KPI。
但是,Tokenmaxxing排行榜只記錄了消耗量,沒有人記錄這些Token到底完成了多少有效任務。
這恰好是今天整個Token經濟中最大的盲區。
圖片由 AI 生成
2100億Token聽起來是一個驚人的數字。但理解它的真實含義,需要先放棄一個假設:Token是標準品。
圖:Tokscale全球Token消耗排行榜,Tokscale是一個開源Token使用量追蹤和排行榜工具,支持Claude Code、Cursor、OpenCode、Codex等多個平臺,用户可以提交數據參與全球排名
兩年前,大模型的定價還相對簡單,通常只有輸入Token和輸出Token兩個基礎價格;但到了今天,主流廠商的定價體系已經明顯分層,同樣是「Token」,在不同調用條件下往往對應完全不同的收費標準。
以Anthropic為例,Claude Opus 4.6的標準輸入價格為每百萬Token 5美元,輸出價格為25美元;如果啟用Prompt Caching,5分鍾緩存寫入為6.25美元、1小時緩存寫入為10美元、緩存讀取為0.50美元。若使用Batch API,輸入和輸出價格都可再打五折;若指定僅在美國本地推理,相關Token價格還會統一上浮10%;而在Fast Mode下,Opus 4.6的輸入和輸出價格則會直接提升至標準價的6倍。
也就是説,同一家廠商、同一個模型、同樣被稱作「Token」的計費單位,已經會因為緩存、批處理、區域推理和速度檔位等不同條件,出現數倍甚至十余倍的價格差。
真正拉高成本的,也早已不只是模型本身的調用費。OpenAI目前的價目表顯示,Web Search已按模型類型區分收費:面向GPT-4.1、GPT-4o等模型的網頁搜索為每千次10美元,而面向GPT-5等推理模型的網頁搜索則為每千次25美元。
File Search的費用為每千次調用2.50美元,外加向量存儲每GB每天0.10美元,前1GB免費。代碼容器也已成為單獨計費項:當前1GB容器收費0.03美元,4GB、16GB和64GB容器則分別對應更高價格;從2026年3月31日起,這套價格還將切換為按每20分鍾一個session per container計費。
模型之外,搜索、檢索、存儲、執行環境這些過去常被視為「附屬能力」的環節,如今都已被拆分成獨立的成本中心。
Google也在沿着同樣的方向推進。Vertex AI官方定價頁面顯示,自2026年2月11日起,Agent Engine中的Code Execution、Sessions和Memory Bank已開始正式收費,相關價格不再籠統打包,而是按照vCPU小時和GiB內存小時分別計價。
所以,今天再談「大模型價格」,已經不能只盯着輸入和輸出Token單價。真正發生變化的是計費邏輯,大模型廠商目前賣的已經是一整套可運行、可存儲、可搜索、可調用工具、可持續執行的AI基礎能力。
圖:OpenAI 定價頁面截圖,Token之外的多層收費結構(Web Search、File Search、Container等獨立計費項)
如果單看模型API的牌面價格,Token確實在逼近白菜價。Anthropic的Opus從上一代的15美元/百萬Token降到了5美元,降幅三分之二。DeepSeek V3.2壓到了0.28美元。Google Gemini 2.5 Flash Lite低至約0.10美元。
中國模型的價格優勢更明顯,OpenRouter數據顯示,中國模型的Token單價約為海外競品的六分之一到十分之一。即便騰訊雲混元HY2.0 Instruct在結束公測補貼、漲價超過460%之后,輸入價格摺合約0.62美元/百萬Token,仍然低於Anthropic最便宜的Haiku 4.5(1美元),不到Sonnet 4.6的五分之一。
圖:Artificial Analysis維護着一個實時更新的LLM排行榜,不同模型之間價格梯度巨大
但AI的總使用成本並沒有隨之下降。三個機制在同時起作用。
第一,模型變聰明瞭,代價是變「話多」了。Artificial Analysis的報告指出,推理模型的平均輸出Token使用量大約是非推理模型的5.5倍。Anthropic和OpenAI都把extended thinking Token按輸出Token計費,模型想得越深,賬單越長。單價降了,但完成同一個任務的Token總量翻了好幾倍。
第二,Agent讓Token從「一次消耗」變成「持續消耗」。這正是Tokenmaxxing的深層驅動力,工程師並不是在手動刷Token,他們的AI編程智能體在24小時不間斷運行,自動拆分任務、調用工具、自我迭代。據阿里雲的數據,單個Agent的算力消耗是傳統Chatbot的100到1000倍。中國整體日均Token消耗在2025年中突破30萬億,到2026年2月已躍升至180萬億級別。
第三,生產Token的底層成本在漲。2026年3月18日,阿里雲和百度智能雲同日宣佈上調AI算力和存儲產品價格,漲幅最高34%。AWS在1月將機器學習容量塊提價約15%,谷歌雲宣佈5月起上調AI基礎設施費用。
某雲計算行業專家表示:「這次雲市場的調價,主要是由供需關係決定,由成本驅動。后續的價格也主要由整個供應鏈的價格趨勢來決定。」
GPU、並行存儲、高速網絡、數據中心電力,模型牌價在降,但生產Token所依賴的一切都在漲。Anthropic在發佈Opus 4.6時專門強調「價格保持不變」,言下之意是更強的能力由廠商自己消化成本。
換句話説,模型是引擎,但油錢、停車費和高速過路費都在漲。
三個機制疊在一起,結果就是Token的牌面價格和真實任務成本之間,出現了一條越來越寬的裂縫。
回到Tokenmaxxing。排行榜記錄了Token消耗量,但沒有記錄產出質量。一個工程師一周燒掉33個維基百科的Token,不等於他完成了33個維基百科價值的工作。
大廠把Token消耗量寫入KPI,或者是作為一種「福利」,本質上真的是生產力的躍升嗎,還是某種「生產力表演」?
這觸及了Token經濟學最核心的結構性缺陷,行業還沒有建立起從Token消耗到任務完成的有效度量。Token衡量的是投入,不是產出。一個Agent花了100萬Token完成了任務,和另一個花了10萬Token完成了同樣的任務,在Tokenmaxxing排行榜上的表現恰好相反,前者排名更高。
Shopify CEO Lütke在備忘錄中有一句話值得注意:他聲稱一些同事正在貢獻「此前認為不可能的10倍產出」,但他沒有給出具體衡量標準。
一種新型的職業焦慮就誕生了:不通過高昂的Token消耗來展示AI生產力,就有可能被視為落伍。這種焦慮,和2000年代初每家企業爭相建網站、2010年代每個品牌必須做App的邏輯一模一樣:技術採納本身變成了信號,消耗量變成了代理指標,真實價值的衡量卻被推迟了。
但與之前不同的是,這一輪的成本代價是實打實的。15萬美元的月度AI賬單、一周2100億Token的消耗、持續漲價的底層算力和存儲,Tokenmaxxing不是免費的。當成本足夠高時,「燒Token」和「用Token創造價值」之間的區別,就會從哲學問題變成財務問題。
Token單價仍會繼續下降,這一點沒有懸念。
真正的焦慮在於,誰能最高效地把Token變成任務完成率。對每一個程序員、每一家企業、每一個普通用户來説,衡量AI的成本,不要看每百萬Token多少錢,要看完成一件事究竟值得花多少Token。
這兩個數字之間的差距,是以「Token為新度量衡的智能時代」下一階段最大的商業機會,也是最深的成本陷阱。
本文來自微信公眾號「騰訊科技」,作者:值得關注的,36氪經授權發佈。