熱門資訊> 正文
2025-08-21 17:47
原標題:相信大模型成本會下降,纔是業內最大的幻覺 來源:極客公園
很多 AI 創業者都篤信一件事——模型會降價。
只要模型降價,成本就會下降,今天勉強打平甚至虧損的收入狀況,就會有好轉。
生意就能做下去。
連 a16z 都在説,大語言模型(LLM)成本正以每年 10 倍的速度下降。
問題是,模型真的一直在降價嗎?
Substack 專欄《mandates》的這篇文章,則認為模型成本其實並沒有在下降。「成本下降 10 倍是真實存在的,但僅限於那些性能老舊的模型。」
「市場的需求永遠只針對*的語言模型。而*模型的成本始終大致相同。」
如果現狀就是這樣,AI 創業的商業模式要怎麼變?文章也進行了探討,或許,又回到了那句老話——AI 創業,*天就要考慮盈利。
假設你創辦了一家公司,並且清楚地知道消費者每月的付費意願上限是 20 美元。你可能會想,這沒關係,是典型的風險投資(VC)打法:按成本收費,犧牲利潤來換增長。客户獲取成本 (CAC)、客户終身價值 (LTV) 這些賬你都算過了。但有趣的是:你看到了 a16z 這張圖表,大語言模型(LLM)成本正以每年 10 倍的速度下降。
於是你盤算着:現在以 20 美元/月的價格做到收支平衡,明年模型成本降低 10 倍后,利潤率就能飆升到 90%。虧損只是暫時的,盈利是必然的。
這個邏輯簡單到連 VC 助理都能看懂:
*年:以 20 美元/月實現盈虧平衡
第二年:計算成本下降 10 倍,利潤率達到 90%
第三年:開始挑選遊艇
這是一個可以理解的策略:「LLM 推理成本每 6 個月下降 3 倍,我們沒問題。」
然而 18 個月后,利潤率卻前所未有地糟糕。Windsurf 公司已經倒閉清算,而 Anthropic 旗下的 Claude Code 也在本周被迫取消了其最初每月 200 美元的無限使用套餐。
行業仍在「虧損」。模型確實變便宜了,GPT-3.5 的成本只有過去十分之一。但不知為何,利潤率反而變得更差了。
問題出在哪了?
01
降價的是舊版模型,
但沒人用
GPT-3.5 的價格是比以前便宜了 10 倍,但它也像 iPhone 發佈會上的翻蓋手機一樣無人問津。
當一款新模型作為*進技術(SOTA)發佈時,99%的市場需求會立刻轉移過去。消費者也期待他們使用的產品能做到這一點。
接着,我們來看看那些前沿模型的實際定價歷史:
發現規律了嗎?
當 GPT-4 以 60 美元的價格推出時,即便上一代的 GPT-3.5 便宜了 26 倍,用户還是毫不猶豫地選擇了前者。
當 Claude 3 Opus 以 60 美元的價格登場時,即便 GPT-4 已經降價,人們還是轉而投向了 Claude。
成本下降 10 倍是真實存在的,但僅限於那些性能老舊的模型。
所以,「成本會下降」策略的*個「支柱」就站不住腳:市場的需求永遠只針對「*的語言模型」。而*模型的成本始終大致相同,因為它就代表了當前推理技術的成本邊界。
指着一輛 1995 年的本田思域説「這車現在便宜多了!」完全是文不對題。沒錯,那輛特定的車是變便宜了,但 2025 年款豐田凱美瑞的官方建議零售價依然是 3 萬美元。
當你花時間與 AI 互動時,無論是編程、寫作還是思考,你總會追求最高質量。沒有人會打開 Claude 然后想:「要不我還是用那個差一點的版本來給老闆省點錢吧。」我們是認知上的「貪婪生物」,總想要能得到的*的「大腦」,尤其當另一端是我們寶貴的時間時。
02
模型的 token 消耗
遠比我們想象的更多
我們可能會説,「好吧,但這仍在可控範圍內,對吧?大不了就一直保持收支平衡?」但這種想法過於樂觀了。
雖然每一代前沿模型的單位 token 價格確實沒有變得更貴,但發生了另一件更糟糕的事:模型消耗的 token 數量出現了爆炸式的增長。
過去,ChatGPT 回答一個單句問題,回覆也是一句話。而現在,一次「深度研究」會花 3 分鍾規劃、20 分鍾閲讀,再用 5 分鍾為你重寫報告;Claude 3 Opus 僅僅爲了回答一句「你好」,就能運行 20 分鍾。
強化學習(RL)和測試階段計算量(TTC)的激增,導致了一個沒人預料到的結果:AI 能處理的任務長度每六個月就翻一番。過去返回 1000 個 token 的任務,現在需要返回 10 萬個。
按照這個趨勢推演下去,結果會變得非常驚人:
現在,一次 20 分鍾的「深度研究」成本約為 1 美元。到 2027 年,我們將擁有能夠連續運行 24 小時而不偏離主題的 AI Agent……如果結合前沿模型的固定價格,這意味着單次運行成本高達約 72 美元。而且是每天、每個用户,並能夠異步運行多個 Agent。
一旦我們能夠部署 AI Agent 異步執行 24 小時的工作,我們就不會只給它一個指令然后等待,而是會成批地調度它們。整個 AI 工作團隊將並行解決問題,消耗 API 的速度堪比 1999 年的互聯網泡沫時代。
必須強調的是,每月 20 美元的訂閲費,甚至無法支撐用户每天進行一次 1 美元的深度研究。但這正是行業未來的方向。模型能力的每一次提升,本質上都是在提升其單次任務能「有效消耗」的計算資源量。
這就像你造出了一臺更省油的發動機,然后用省下的能效去造了一輛怪獸卡車。沒錯,每加侖油能跑得更遠了,但總油耗也增加了 50 倍。
這就是導致 Windsurf 陷入資金鍊危機的「流動性擠壓(Short Squeeze)」,任何採用「固定費率訂閲 + 高價值高 token 消耗功能」商業模式的初創公司,都正面臨着同樣的威脅。
03
200 刀的 Claude Max 會員,
也抵不過「循環 tokens」用法
Anthropic 的 Claude Code 「無限量套餐」實驗,是目前業內應對這場危機最複雜的嘗試。他們幾乎嘗試了所有計策,最終仍以失敗告終。
他們的策略確實相當巧妙:
然而,即便工程設計如此出色,token 消耗量依舊呈爆發式增長。
一百億個 token,相當於在一個月內消耗了 1.25 萬本《戰爭與和平》。
這怎麼可能?即使用户每次運行 10 分鍾,如何能消耗掉 100 億個 token?
事實證明,10 到 20 分鍾的連續運行時長,剛好夠用户摸索出「循環 tokens」的用法。一旦 token 消耗與「用户在應用內的時長」脱鈎,消耗就會失控:讓 Claude 執行一項任務,檢查成果、重構內容、優化細節,循環往復,直到公司破產。
用户搖身變成了「API 編排者」,用 Anthropic 的成本,24 小時不間斷地運行代碼轉換引擎。從「聊天交互」到「Agent 自主運行」的演進一夜完成,token 消耗量激增 1000 倍,這是個階段性的突變,而不是漸進式的。
因此,Anthropic 不得不取消無限量套餐。他們本可以嘗試將定價提高到 200 美元/月,但關鍵的教訓不在於「定價不夠高」,而是在這個新世界里,沒有任何訂閲模式能夠提供無限使用權限。
這意味着,在這個新世界里,沒有一個固定的訂閲價格是行得通的。商業模式的數學邏輯已徹底崩塌。
04
都知道要「按量定價」,
但沒人敢先嚐試
這讓其他公司陷入了兩難境地。
每家 AI 公司都知道,基於使用量的定價能救他們,但也知道這不成立。當你以負責任的 0.01 美元/1000 token 定價時,你的競爭對手卻提供每月 20 美元的無限量使用。用户會選擇誰?
這是典型的「囚徒困境」:
所有人都按使用量計費 → 行業可持續發展
所有人都按固定費率計費 → 陷入「比爛競爭」(race to the bottom)
你按使用量計費,別人按固定費率 → 你獨自出局
你按固定費率計費,別人按使用量 → 你短期獲勝(之后仍會出局)
因此,所有人都選擇了「背叛」。所有人都補貼重度用户,發佈指數級增長的圖表,並最終發佈「重要的定價調整」公告。
Cursor、Lovable、Replit,它們都清楚其中的數學邏輯。但它們選擇了「當下求增長,未來求盈利,把破產問題留給下一任 CEO」。
説實話這或許是對的。在「圈地運動(land grab)」中,市場份額比利潤率更重要。只要風險投資還願意持續注資。
不妨問問 Jasper 公司,當資金鍊斷裂時,會發生什麼?
05
如何找到合適的商業模式?
有沒有可能避開「token 流動性擠壓」?
最近有傳言稱,Cognition 正以 150 億美元的估值進行融資,而其年度經常性收入(ARR)據稱不到 1 億美元(我猜可能更接近 5000 萬美元)。相比之下,Cursor 在 ARR 達到 5 億美元、增長曲線更陡峭的情況下,也僅獲得了 100 億美元的估值。Cognition 的收入不及 Cursor 的八分之一,估值卻是其 1.5 倍。風險投資公司掌握了哪些我們不知道的信息?兩家公司都主打「AI coding Agent」,難道 Cognition 找到了跳出「死亡螺旋」的方法?
目前有三種可能的出路:
從一開始就採用「按使用量計費」沒有補貼,沒有「先獲取、后變現」的説法,只有誠實的經濟模式。這在理論上聽起來很棒。
但問題是:我們現在找不到任何一個採用「按使用量計費」且實現爆發式增長的消費級 AI 公司?消費者討厭計量收費。他們寧願為無限量套餐多付錢,也不願意被意料之外的賬單嚇到。每一個成功的消費者訂閲服務,Netflix、Spotify、ChatGPT,都是包月制。一旦你引入計量收費,增長就會停滯。
建立極高的切換成本,從而獲得高利潤率這是 Devin 的看好的方向。他們最近宣佈了與花旗銀行和高盛的合作,將 Devin 部署到每家公司的 4 萬名軟件工程師中。按每月 20 美元計算,這是一個千萬美元級別的項目。但問題來了:你更願意從高盛獲得 1000 萬美元的 ARR,還是從專業消費級開發者那里獲得 5 億美元? 答案是明顯的:長達六個月的落地實施、合規審查、安全審計、繁瑣的採購流程,意味着從高盛那里拿到的收入雖然難以爭取,但一旦到手,客户就幾乎不會流失。你只有在銀行的*決策者將自己的聲譽押注在你身上時,才能簽下這些合同,而所有人都會竭盡全力確保項目成功。 這也是為什麼除了科技巨頭外,*的軟件公司幾乎都是「核心系統服務商」,例如客户關係管理(CRM )、企業資源計劃(ERP )、電子健康記錄(EHR)系統。它們的利潤率都能達到 80%-90%,因為客户切換成本越高,對價格的敏感度就越低。當競爭對手出現時,你的產品早已經深度嵌入到客户的業務流程中,切換供應商需要再經歷一個為期六個月的銷售周期。不是不能換,而是客户的 CFO 寧願辭職,也不願再經歷一次供應商評估。
進行垂直整合,從基礎設施上盈利這是 Replit 的玩法:將代碼 AI 工具與應用託管、數據庫管理、部署監控、日誌記錄等服務捆綁銷售。在每個 token 上虧一點錢,但在新一代開發者的技術棧中,從其他所有環節捕獲價值。看看 Replit 的垂直整合程度就知道了。
將 AI 作為「引流品」,推動用户使用其具有「類 AWS」競爭力的其他服務。你賣的不是「推理服務」,而是其他所有服務,推理成本只是營銷開支。這個模式的巧妙在於,代碼生成自然會增加對託管服務的需求。每個應用都需要運行環境,每個數據庫都需要管理,每次部署都需要監控。就讓 OpenAI 和 Anthropic 去把推理服務的價格競爭到零,你去做別的事情。
那些仍在堅持「固定費率、不計成本增長」模式的公司?它們只是「行走的殭屍」,只不過它們的葬禮定在了今年第四季度,並且成本高昂。
06
結語
我們不斷地看到有創始人引用「模型明年會便宜 10 倍!」這種説法。但到那時,用户會期望得到 20 倍以上的回報。
還記得 Windsurf 嗎?由於 Cursor 帶來的對盈虧平衡的壓力,他們根本找不到方法破局。即便是像 Anthropic 這樣的公司,擁有全球最垂直整合應用層,也無法讓一個提供無限使用量的固定訂閲模式運轉起來。
雖然《levered beta is all you need》文章的核心結論:「早入局勝過聰明」,仍然成立,但「沒有規劃地早入局」,只會更早地失敗。谷歌不會為「負利潤率業務」開出 24 億美元的支票;當「以后再説」意味着你的 AWS 賬單已經超過你的收入時,「以后」便不復存在。
那麼,在這樣的環境下該如何創業?簡而言之,成為「新雲廠商」(neocloud )。至少,模型明年的成本會降至 1/10。