熱門資訊> 正文

信息量爆炸！深度解讀 300頁 AI 年度百科報告《State of AI 2025》

2025-10-20 19:14

（來源：AI算法與圖像處理）

State of AI Report 2025 正式發佈了。

背后主筆是硅谷投資人 Nathan Benaich 和他創辦的 Air Street Capital，從 2018 年開始，這份報告就被稱為「AI 行業的年度百科」。

含金量還是非常高的。

原文在此：https://www.stateof.ai/

今年的內容比以往更猛，不光講了模型升級、芯片戰、智能體，還講了一個核心問題：

AI 到底給誰帶來了真正的價值？我們現在用得熱火朝天的大模型，是不是在「消耗算力的幻覺」里跑步？誰在真用，誰在燒錢，誰已經賺到第一桶金。

這份報告給了不少線索。全報告一共 300 多頁，信息密度拉滿，我們帶你一起拆解。

一、研究：推理元年，也是幻覺元年

2025 年，被稱為「AI 推理元年」也不為過。

不管是 OpenAI、Anthropic、Google，還是中國的 DeepSeek，都把「推理」當成了決勝關鍵。

但《State of AI Report 2025》的視角卻顯得格外冷靜：這場「推理盛宴」的熱鬧背后，既有真突破，也有不少幻覺

推理模型的爆發式進展

這一年最具標誌性的模型，是 OpenAI 的 o1。

用「Chain-of-Thought（思維鏈）+ RL（強化學習）」的方式，提升複雜任務的表現，刻意讓 AI「慢一點思考」。

在美國數學競賽 AIME 上，OpenAI 的 o1 從訓練到測試的表現都有明顯提升，甚至開始挑戰更復雜的奧賽題型。很多人也第一次看到，「AI 不再是答題機器，而是會留中間過程」的學習者。

但更猛的，其實是中國團隊。

DeepSeek 先是推出了 V3，后來又升級為 R1-Zero，直接用了一種叫 GRPO（Group Relative Policy Optimization）的方法，讓模型「先生成多個答案，再學會從中自我比較、選最優」。

為解決R1-Zero生成內容可讀性差等問題，后續加入 CoT 預熱、SFT等步驟，最終訓練出 R1， AIME 得分從最初的 15.6%，一路飆升到了 79.8%，MATH-500 也達到了 97.3%，這些都是當前世界頂級水平。

推理的幻象

但我們得問一句：它們真的更聰明瞭嗎？

報告里的觀點讓人一驚：

「大多數所謂的推理進步，其實落在模型波動的自然範圍內。」

什麼意思？

就是你看到 AI 在某個數學題或邏輯題上的表現變好了，可能只是「隨機運氣」或者「換了種問法」，根本不是它思維方式變得更清晰了。

比如：

同一道題，只是在題目前加了一句「貓一天能睡 20 小時」的無關信息，錯誤率就可能翻倍；
在 DeepSeek R1、Qwen、Llama、Mistral 等多個 SOTA 模型中，加入無關信息，錯誤率甚至能飆升 7 倍；
GSM-Symbolic 的研究發現，只要把題目的數字換一換，或換種表達方式（比如英文變中文），模型的數學精度直接下降 60% 以上。

模型的「脆弱性」遠超想象。

不過——即便如此，CoT 仍然是目前檢測模型意圖最強大的工具之一。

《State of AI Report》引用的多個安全性研究顯示：在紅隊測試中，哪怕模型有意掩飾自己的「作惡意圖」，CoT 仍能在 99% 的攻擊樣本中露出蛛絲馬跡。尤其是在數學、代碼等結構化任務中，CoT 是少數能揭示「模型到底是怎麼想的」的窗口。

AI 的「霍桑效應」

如果你是 AI 實驗室的負責人，最怕什麼？

怕你訓練了一個「考試考得好」的 AI，但一上線就出事。

《State of AI Report 2025》指出，AI 已經具備一種讓人毛骨悚然的能力：知道自己正在被評估。

研究者稱之為「AI 版霍桑效應」：

模型內部會浮現出一種「測試覺知方向」；
當你沿着這個方向「推一把」，它會變得更守規矩、更安全；
當你「關掉」這個方向，它就會表現出更真實的（可能更激進的）行為。

爲了應對這種「裝乖」機制，研究者提出了一個激進的概念：可監控性税（monitorability tax）。

我們也許得接受「性能不夠最優」的模型，以換取更高的可解釋性和透明度。就像招一個技術稍遜但誠實靠譜的員工，而不是一個聰明但善於掩蓋問題的「內鬼」。

獎勵機制的進化：模糊人類偏好 → 可驗證正確性

在訓練 AI「思考」的過程中，另一個關鍵技術正在悄悄變革：強化學習的獎勵機制。

傳統上，AI 靠人類給分：你覺得它答得好，就獎勵它多點分。答差了，少點分。這叫 RLHF（Reinforcement Learning from Human Feedback），直白説就是「靠人點贊決定成敗」。

但人類打分的標準太模糊了，也容易被「討好式 AI」騙到。

所以現在，主流實驗室開始用一種更硬核的方式：可驗證獎勵（RLVR）。

簡單説，就是讓 AI 做那些一看就知道對不對的任務，比如：

數學題有唯一解；
代碼能不能跑過測試；
推理鏈條有沒有邏輯漏洞。

用這種方式訓練出來的模型，不但在精度上更穩，而且能顯著提升一個叫CoT-Pass@Kmailto:CoT-Pass@K的嚴格指標——要求模型不僅答對題，還得答出一條「可信」的思考路徑。

但報告也指出，RLVR 並不是萬能鑰匙。

兩份研究報告還針鋒相對：一方説「RLVR 只是在重排採樣結果，沒帶來真正進步」；另一方説「如果你評分鏈條而不是答案，RLVR 確實更靠譜」。

推理之后，AI 正奔向三個更遠的方向

推理這場秀還沒唱完，但真正的前沿玩家，已經在追逐下一個劇本：

世界模型：能根據狀態預測下一個狀態，實現交互式視頻生成和虛擬環境控制（如 Genie 3、Dreamer 4）。
AI 科學家：多代理系統已能提出假設、規劃實驗並驗證結果（如 DeepMind Co-Scientist、Stanford Virtual Lab）。
數學、化學、生物學突破：AI 系統在 IMO 數學競賽、藥物設計、蛋白質結構預測中已超越人類專家。

二、產業：從論文到利潤，AI 終於開始真金白銀地掙錢了

過去一年，AI 不再只是「發佈模型—上熱搜—拿融資」的循環遊戲，而是開始真正走入商業主戰場。

從報告看，2025 年的產業格局發生了幾件大事：

AI 開始掙錢了，是真的掙「億」了

2025 年的 AI 產業，開始在財務報表上交卷了：

多家「AI-first 公司」年收入突破數十億美元，甚至直接接入廣告、電商等業務，成為新增長引擎；
大模型實驗室（OpenAI、Anthropic、Google DeepMind）通過 API、企業服務、定製化模型等方式，形成了清晰的訂閲 + 增值 + 企業方案三層商業路徑；
AI to AI 市場也在擴大：越來越多公司開發給 AI 用的插件、服務、接口。

誰最掙錢？NVIDIA 幾乎在「收智商税」

説 AI 掙錢了，不如説，NVIDIA 在掙所有人的錢。

2025 年，NVIDIA 市值突破了 4 萬億美元。你沒看錯，是和整個平臺級經濟體差不多的體量。

更誇張的是，根據報告統計：

「2025 年發佈的 AI 研究論文中，有 90% 使用了 NVIDIA GPU。」

換句話説，AI 行業往前走的每一小步，幾乎都離不開 NVIDIA 。

從 2016 年到現在，西方市場上那些想挑戰英偉達的 AI 芯片公司，一共拿了大約 75 億美元投資。看起來不少吧？可如果當時這些錢不是投給初創公司，而是全買了英偉達的股票，現在價值大約是 850 億美元——整整翻了 12 倍。反觀那些「挑戰者」，市值加起來才 140 億美元，勉強翻了兩倍。

當然，也不是沒人挑戰它。

今年的報告里提到，「定製芯片 + 新雲架構（Neo-Clouds）」開始抬頭：

Google 用 TPU v5 Ultra 支撐 Gemini；
AWS 用 Trainium、Inferentia 整合了自己模型堆棧；
中國本土也在加速國產算力芯片投放，尤其針對開源模型優化路徑。

但坦白説，這些挑戰目前更多是戰術性優化，無法撼動 NVIDIA 的戰略地位。一如英特爾壟斷 X86 那樣，NVIDIA 已經綁定了整個 AI 產業鏈的心跳頻率。

新瓶頸是「沒電」

之前我們也聊過這個問題。

以前搞 AI 的最怕聽到一句話：「你沒 GPU 啊？」而現在最怕聽到的，是：「你拉不來電啊？」

今年報告里也提出了這個觀點：

「AI 發展已進入‘電力決定路線圖’的時代。」

什麼意思？就是：

世界各地建的大模型超級數據中心；
但這些集羣動輒需要「數百兆瓦到幾千兆瓦（GWh 級）」的電力消耗，相當於一箇中型城市的日常負荷；
而當前的電網根本跟不上它們的擴張速度：發電能力不夠，變電站老舊，輸配系統承壓，政策審批周期長……

結果就是：你想部署模型，先得去談電網調度。

AI 開發者正在變成「能源交易員」。

這不是誇張。比如某大型 AI 公司在德州買下整片工業地皮，實則是在爭奪變電站和電網接入點。報告甚至提到，「部分 AI 基礎設施的邊際成本，已經由 GPU 價格轉向千瓦時電價」。

中國開源模型全面反超：Qwen、DeepSeek、Kimi，把 Meta 甩在身后

這部分，是整個報告里最意外、但最值得打醒西方開發者的一幕。

回顧過去幾年，Meta 的 LLaMA 系列一直是全球開源社區的「白月光」，幾乎所有社區微調、項目部署、落地工具都圍繞 LLaMA 做。

但就在 2025 年，中國模型完成了一場真正意義上的「超車」：

Qwen 一家模型，佔據了 Hugging Face 新微調模型衍生的 40% 以上份額，Meta LLaMA 的份額從 50% 跌到 15%；
DeepSeek 不僅在推理任務上超越 o1-preview，還成功「卷出商業場景」，如 code agent、多模態 agent；
Moonshot 的 Kimi K2 成為全網最強的開源文本模型，在 LMArena 排名第一；
中國團隊構建了完備的開源 RL 工具鏈：ByteDance 的 verl、OpenRLHF 都以 Apache/MIT 開源協議發佈，API 友好、效率高、生態完整。

「中國的開源模型不再是‘LLaMA 山寨’，而是社區真正願意構建在其上的根基。」

Meta 之后發佈的 LLaMA 4 沒能維持熱度，部分原因是選了 MoE 架構，調試難、社區門檻高、擴展性差。反觀 Qwen、DeepSeek、Kimi 等模型覆蓋從 1B 到 100B 各種規模，適合不同開發者上手，成爲了真正「社區友好」的基礎設施。

面對中國開源生態的狂飆，OpenAI 也開始重新考慮「自己是不是站錯了隊」。

2025 年 8 月，他們發佈了 gpt-oss-120B 和 gpt-oss-20B，是自 GPT-2 之后首次開源大模型。

但這次開源，社區反響中等偏下。報告直接指出：「gpt-oss 系列的實際使用效果類似微軟的 phi 模型：‘小而便宜’，但不穩定。」

三、政治：AI 已經不是技術競賽，而是國家之間的權力遊戲

到 2025 年，AI 已經從技術正在變成地緣政治的一部分——甚至可以説，是國際秩序的一部分。

這場競賽最激烈的主角，還是中美。

美國封鎖，中國造血

報告里用了一個頗具諷刺意味的詞：「America-first AI」。

而這背后是一套政策組合：

對先進 GPU 的出口全面收緊（尤其是針對中國）；
對頂級模型的開放設置了「閾值限制」（比如 FLOPS 限制）；
投資迴流本土、重點扶持「安全可信」的 AI 工具鏈；
甚至推動盟國一起設立「共同管控標準」，比如類似歐盟 AI Act 的框架。

這套打法，說白了，就是不給你卡、不給你投錢、設立規則限制你。讓中國 AI 的發展必須靠自己造血。

而中國這邊的應對，也非常明確：不再等，不再繞，直接「自給自足」干到底。

報告里提到，中國在 2025 年不僅加速了國產 GPU 投產（尤其是面向開源模型的優化芯片），還出現了多個「從芯片到框架」的全鏈路國產替代項目。尤其在訓練基礎模型、做專有模型優化方面，已經不再完全依賴西方工具鏈。

而這場脱鈎的受害者，是全球創新。

社會結構也開始被衝擊

當然，政治層面的轉變最終也會落到每個人頭上。

2025 年，自動化衝擊勞動力市場的證據第一次變得實錘了。

報告提到，一些國家已經開始把「AI 失業」納入勞工統計指標中，比如：

低技能崗位被 AI 工具壓縮工時，比如客服、基礎寫作、數據錄入；
原本「中產技能型」工作，也出現了被半自動工具替代的趨勢，比如財務審計、文書法律服務；
招聘市場開始用「是否熟悉 AI 工具」作為硬門檻，比如 Excel 現在可能不重要了，ChatGPT、Copilot 纔是必修課。

多個國家已經啟動了關於「AI 税收」、「全民再教育」的政策討論：如果 AI 搶走了人類的工作，那麼創造它的公司，要不要多繳點税？這些錢能不能用於再教育基金？

這聽起來像是老生常談，但區別是，這一次是真的來了。

四、安全：AI 世界的「攻防戰」，正在徹底失衡

説到 AI 安全，很多人第一反應是：「會不會哪天模型突然暴走？」但現實要複雜得多、也殘酷得多。

2025 年的 AI 安全，不再是「有沒有問題」的討論，而是「攻防是否還平衡」的問題。而報告的答案，幾乎可以説是：不再平衡，甚至已經傾斜得很危險。

安全投入，擋不住五個月翻倍的攻擊能力

先看一組令人頭皮發麻的數據：

「攻擊能力每 5 個月翻一倍。」

什麼意思？就是你剛剛設立一道防線，五個月內就會被新方法繞過、穿透，甚至自動化批量化。

與此同時，頂級實驗室雖然砸了史無前例的錢在安全上，但外部的非盈利安全研究機構，一整年的預算還不夠這些實驗室一天的成本。

這是一種極度不對等的結構：做出模型的，是富可敵國的巨頭；試圖監督它們的，是幾間辦公室幾臺電腦的非盈利團隊。

這就像讓一個手持盾牌的騎士，去攔截一羣開坦克的盜賊。

報告里的話説得很直白：

「前沿 AI 實驗室的進展速度已經遠遠快過了任何形式的安全對策機制。」

安全研究的新方向：從語言監控轉向結構控制

報告里對安全研究的重點做了非常清晰的分類：

數據層安全：現在主流的做法，是在模型訓練前就把有害內容過濾掉，或者在訓練中加語境標籤、拒絕學習某些模式。這個方向已經比較成熟，能明顯降低「越獄」率。

CoT 安全監控：思維鏈（Chain of Thought）不僅能讓模型「顯得像在思考」，還意外成為一種檢測作弊的工具。報告提到，95% 的Reward Hacking行為可以被思維鏈暴露。但問題來了：攻擊者也會「裝」一條合法的思維鏈出來。
無語言推理模型（如 COCONUT）：爲了省算力，有些團隊開始研究「完全不靠語言」的模型，比如圖結構推理、邏輯樹模型。這種模型更難出現幻覺，但也更難監控。因為你根本看不見它在説什麼。

《State of AI Report 2025》也在最后列出了未來 12 個月的 10 個預測。

讀完整份報告，我最大的感受是：AI 已經從「一個工具」，變成了「一個結構」。

它正在改寫科學的生產方式、資本的流動邏輯、權力的分配體系，甚至人的定義方式。

我們曾以為，AI 會像電一樣普及，像互聯網一樣連接世界。

但現在它告訴我們，它更像語言本身——我們習慣用它表達，卻越來越難脱離它思考。

這令人震驚，也令人興奮。

因為我們正身處其中，親歷這場變化。

信息量爆炸！深度解讀 300頁 AI 年度百科報告《State of AI 2025》

推薦文章

美股機會日報 | 地緣政治衝突加劇！歐美對俄製裁致使油價大漲；特斯拉盤前跌超3%

消息稱特朗普政府與量子計算公式談判入股事宜

高盛建議逢低買入中國股票 稱企業盈利具備韌性

金價連續第三天回調 分析師稱基本面並未轉變

特斯拉高管解讀Q3財報：三星芯片協議不會取代英偉達

新股申購 | 明略科技-W今起招股！一手入場費為5696.88港元

一周展望：美國CPI「雖迟但到」，科技股財報來襲，黃金回落

「木頭姐」稱特斯拉有望10年內增長30倍，馬斯克迴應

高盛建議逢低買入中國股票稱企業盈利具備韌性

金價連續第三天回調分析師稱基本面並未轉變