繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

信息量爆炸!深度解讀 300頁 AI 年度百科報告《State of AI 2025》

2025-10-20 19:14

(來源:AI算法與圖像處理)

State of AI Report 2025 正式發佈了。

背后主筆是硅谷投資人 Nathan Benaich 和他創辦的 Air Street Capital,從 2018 年開始,這份報告就被稱為「AI 行業的年度百科」。

含金量還是非常高的。

原文在此:https://www.stateof.ai/

今年的內容比以往更猛,不光講了模型升級、芯片戰、智能體,還講了一個核心問題:

AI 到底給誰帶來了真正的價值?我們現在用得熱火朝天的大模型,是不是在「消耗算力的幻覺」里跑步?誰在真用,誰在燒錢,誰已經賺到第一桶金。

這份報告給了不少線索。全報告一共 300 多頁,信息密度拉滿,我們帶你一起拆解。

一、研究:推理元年,也是幻覺元年

2025 年,被稱為「AI 推理元年」也不為過。

不管是 OpenAI、Anthropic、Google,還是中國的 DeepSeek,都把「推理」當成了決勝關鍵。

但《State of AI Report 2025》的視角卻顯得格外冷靜:這場「推理盛宴」的熱鬧背后,既有真突破,也有不少幻覺

推理模型的爆發式進展

這一年最具標誌性的模型,是 OpenAI 的 o1。

用「Chain-of-Thought(思維鏈)+ RL(強化學習)」的方式,提升複雜任務的表現,刻意讓 AI「慢一點思考」。

在美國數學競賽 AIME 上,OpenAI 的 o1 從訓練到測試的表現都有明顯提升,甚至開始挑戰更復雜的奧賽題型。很多人也第一次看到,「AI 不再是答題機器,而是會留中間過程」的學習者。

但更猛的,其實是中國團隊。

DeepSeek 先是推出了 V3,后來又升級為 R1-Zero,直接用了一種叫 GRPO(Group Relative Policy Optimization)的方法,讓模型「先生成多個答案,再學會從中自我比較、選最優」。

為解決R1-Zero生成內容可讀性差等問題,后續加入 CoT 預熱、SFT等步驟,最終訓練出 R1,  AIME 得分從最初的 15.6%,一路飆升到了 79.8%,MATH-500 也達到了 97.3%,這些都是當前世界頂級水平。

推理的幻象

但我們得問一句:它們真的更聰明瞭嗎?

報告里的觀點讓人一驚:

「大多數所謂的推理進步,其實落在模型波動的自然範圍內。」

什麼意思?

就是你看到 AI 在某個數學題或邏輯題上的表現變好了,可能只是「隨機運氣」或者「換了種問法」,根本不是它思維方式變得更清晰了。

比如:

  • 同一道題,只是在題目前加了一句「貓一天能睡 20 小時」的無關信息,錯誤率就可能翻倍;

  • 在 DeepSeek R1、Qwen、Llama、Mistral 等多個 SOTA 模型中,加入無關信息,錯誤率甚至能飆升 7 倍

  • GSM-Symbolic 的研究發現,只要把題目的數字換一換,或換種表達方式(比如英文變中文),模型的數學精度直接下降 60% 以上

模型的「脆弱性」遠超想象

不過——即便如此,CoT 仍然是目前檢測模型意圖最強大的工具之一

《State of AI Report》引用的多個安全性研究顯示:在紅隊測試中,哪怕模型有意掩飾自己的「作惡意圖」,CoT 仍能在 99% 的攻擊樣本中露出蛛絲馬跡。尤其是在數學、代碼等結構化任務中,CoT 是少數能揭示「模型到底是怎麼想的」的窗口。

AI 的「霍桑效應」

如果你是 AI 實驗室的負責人,最怕什麼?

怕你訓練了一個「考試考得好」的 AI,但一上線就出事。

《State of AI Report 2025》指出,AI 已經具備一種讓人毛骨悚然的能力:知道自己正在被評估

研究者稱之為「AI 版霍桑效應」:

  • 模型內部會浮現出一種「測試覺知方向」;

  • 當你沿着這個方向「推一把」,它會變得更守規矩、更安全;

  • 當你「關掉」這個方向,它就會表現出更真實的(可能更激進的)行為。

爲了應對這種「裝乖」機制,研究者提出了一個激進的概念:可監控性税(monitorability tax)

我們也許得接受「性能不夠最優」的模型,以換取更高的可解釋性和透明度。就像招一個技術稍遜但誠實靠譜的員工,而不是一個聰明但善於掩蓋問題的「內鬼」。

獎勵機制的進化:模糊人類偏好 → 可驗證正確性

在訓練 AI「思考」的過程中,另一個關鍵技術正在悄悄變革:強化學習的獎勵機制

傳統上,AI 靠人類給分:你覺得它答得好,就獎勵它多點分。答差了,少點分。這叫 RLHF(Reinforcement Learning from Human Feedback),直白説就是「靠人點贊決定成敗」。

但人類打分的標準太模糊了,也容易被「討好式 AI」騙到。

所以現在,主流實驗室開始用一種更硬核的方式:可驗證獎勵(RLVR)

簡單説,就是讓 AI 做那些一看就知道對不對的任務,比如:

  • 數學題有唯一解;

  • 代碼能不能跑過測試;

  • 推理鏈條有沒有邏輯漏洞。

用這種方式訓練出來的模型,不但在精度上更穩,而且能顯著提升一個叫CoT-Pass@Kmailto:CoT-Pass@K的嚴格指標——要求模型不僅答對題,還得答出一條「可信」的思考路徑。

但報告也指出,RLVR 並不是萬能鑰匙

兩份研究報告還針鋒相對:一方説「RLVR 只是在重排採樣結果,沒帶來真正進步」;另一方説「如果你評分鏈條而不是答案,RLVR 確實更靠譜」。

推理之后,AI 正奔向三個更遠的方向

推理這場秀還沒唱完,但真正的前沿玩家,已經在追逐下一個劇本:

  • 世界模型:能根據狀態預測下一個狀態,實現交互式視頻生成和虛擬環境控制(如 Genie 3、Dreamer 4)。

  • AI 科學家:多代理系統已能提出假設、規劃實驗並驗證結果(如 DeepMind Co-Scientist、Stanford Virtual Lab)。

  • 數學、化學、生物學突破:AI 系統在 IMO 數學競賽、藥物設計、蛋白質結構預測中已超越人類專家  。

二、產業:從論文到利潤,AI 終於開始真金白銀地掙錢了

過去一年,AI 不再只是「發佈模型—上熱搜—拿融資」的循環遊戲,而是開始真正走入商業主戰場。

從報告看,2025 年的產業格局發生了幾件大事:

AI 開始掙錢了,是真的掙「億」了

2025 年的 AI 產業,開始在財務報表上交卷了:

  • 多家「AI-first 公司」年收入突破數十億美元,甚至直接接入廣告、電商等業務,成為新增長引擎;

  • 大模型實驗室(OpenAI、Anthropic、Google DeepMind)通過 API、企業服務、定製化模型等方式,形成了清晰的訂閲 + 增值 + 企業方案三層商業路徑;

  • AI to AI 市場也在擴大:越來越多公司開發給 AI 用的插件、服務、接口。

誰最掙錢?NVIDIA 幾乎在「收智商税」

説 AI 掙錢了,不如説,NVIDIA 在掙所有人的錢。

2025 年,NVIDIA 市值突破了 4 萬億美元。你沒看錯,是和整個平臺級經濟體差不多的體量。

更誇張的是,根據報告統計:

「2025 年發佈的 AI 研究論文中,有 90% 使用了 NVIDIA GPU。」

換句話説,AI 行業往前走的每一小步,幾乎都離不開 NVIDIA 。

從 2016 年到現在,西方市場上那些想挑戰英偉達的 AI 芯片公司,一共拿了大約 75 億美元投資。看起來不少吧?可如果當時這些錢不是投給初創公司,而是全買了英偉達的股票,現在價值大約是 850 億美元——整整翻了 12 倍。反觀那些「挑戰者」,市值加起來才 140 億美元,勉強翻了兩倍。

當然,也不是沒人挑戰它。

今年的報告里提到,「定製芯片 + 新雲架構(Neo-Clouds)」開始抬頭:

  • Google 用 TPU v5 Ultra 支撐 Gemini;

  • AWS 用 Trainium、Inferentia 整合了自己模型堆棧;

  • 中國本土也在加速國產算力芯片投放,尤其針對開源模型優化路徑。

但坦白説,這些挑戰目前更多是戰術性優化,無法撼動 NVIDIA 的戰略地位。一如英特爾壟斷 X86 那樣,NVIDIA 已經綁定了整個 AI 產業鏈的心跳頻率。

新瓶頸是「沒電」

之前我們也聊過這個問題。

以前搞 AI 的最怕聽到一句話:「你沒 GPU 啊?」而現在最怕聽到的,是:「你拉不來電啊?」

今年報告里也提出了這個觀點:

「AI 發展已進入‘電力決定路線圖’的時代。」

什麼意思?就是:

  • 世界各地建的大模型超級數據中心;

  • 但這些集羣動輒需要「數百兆瓦到幾千兆瓦(GWh 級)」的電力消耗,相當於一箇中型城市的日常負荷;

  • 而當前的電網根本跟不上它們的擴張速度:發電能力不夠,變電站老舊,輸配系統承壓,政策審批周期長……

結果就是:你想部署模型,先得去談電網調度。

AI 開發者正在變成「能源交易員」。

這不是誇張。比如某大型 AI 公司在德州買下整片工業地皮,實則是在爭奪變電站和電網接入點。報告甚至提到,「部分 AI 基礎設施的邊際成本,已經由 GPU 價格轉向千瓦時電價」。

中國開源模型全面反超:Qwen、DeepSeek、Kimi,把 Meta 甩在身后

這部分,是整個報告里最意外、但最值得打醒西方開發者的一幕

回顧過去幾年,Meta 的 LLaMA 系列一直是全球開源社區的「白月光」,幾乎所有社區微調、項目部署、落地工具都圍繞 LLaMA 做。

但就在 2025 年,中國模型完成了一場真正意義上的「超車」:

  • Qwen 一家模型,佔據了 Hugging Face 新微調模型衍生的 40% 以上份額,Meta LLaMA 的份額從 50% 跌到 15%;

  • DeepSeek 不僅在推理任務上超越 o1-preview,還成功「卷出商業場景」,如 code agent、多模態 agent;

  • Moonshot 的 Kimi K2 成為全網最強的開源文本模型,在 LMArena 排名第一;

  • 中國團隊構建了完備的開源 RL 工具鏈:ByteDance 的 verl、OpenRLHF 都以 Apache/MIT 開源協議發佈,API 友好、效率高、生態完整。

「中國的開源模型不再是‘LLaMA 山寨’,而是社區真正願意構建在其上的根基。」

Meta 之后發佈的 LLaMA 4 沒能維持熱度,部分原因是選了 MoE 架構,調試難、社區門檻高、擴展性差。反觀 Qwen、DeepSeek、Kimi 等模型覆蓋從 1B 到 100B 各種規模,適合不同開發者上手,成爲了真正「社區友好」的基礎設施。

面對中國開源生態的狂飆,OpenAI 也開始重新考慮「自己是不是站錯了隊」。

2025 年 8 月,他們發佈了 gpt-oss-120B 和 gpt-oss-20B,是自 GPT-2 之后首次開源大模型。

但這次開源,社區反響中等偏下。報告直接指出:「gpt-oss 系列的實際使用效果類似微軟的 phi 模型:‘小而便宜’,但不穩定。」

三、政治:AI 已經不是技術競賽,而是國家之間的權力遊戲

到 2025 年,AI 已經從技術正在變成地緣政治的一部分——甚至可以説,是國際秩序的一部分。

這場競賽最激烈的主角,還是中美。

美國封鎖,中國造血

報告里用了一個頗具諷刺意味的詞:「America-first AI」

而這背后是一套政策組合:

  • 對先進 GPU 的出口全面收緊(尤其是針對中國);

  • 對頂級模型的開放設置了「閾值限制」(比如 FLOPS 限制);

  • 投資迴流本土、重點扶持「安全可信」的 AI 工具鏈

  • 甚至推動盟國一起設立「共同管控標準」,比如類似歐盟 AI Act 的框架。

這套打法,說白了,就是不給你卡、不給你投錢、設立規則限制你。讓中國 AI 的發展必須靠自己造血。

而中國這邊的應對,也非常明確:不再等,不再繞,直接「自給自足」干到底

報告里提到,中國在 2025 年不僅加速了國產 GPU 投產(尤其是面向開源模型的優化芯片),還出現了多個「從芯片到框架」的全鏈路國產替代項目。尤其在訓練基礎模型、做專有模型優化方面,已經不再完全依賴西方工具鏈

而這場脱鈎的受害者,是全球創新。

社會結構也開始被衝擊

當然,政治層面的轉變最終也會落到每個人頭上。

2025 年,自動化衝擊勞動力市場的證據第一次變得實錘了。

報告提到,一些國家已經開始把「AI 失業」納入勞工統計指標中,比如:

  • 低技能崗位被 AI 工具壓縮工時,比如客服、基礎寫作、數據錄入;

  • 原本「中產技能型」工作,也出現了被半自動工具替代的趨勢,比如財務審計、文書法律服務;

  • 招聘市場開始用「是否熟悉 AI 工具」作為硬門檻,比如 Excel 現在可能不重要了,ChatGPT、Copilot 纔是必修課。

多個國家已經啟動了關於 「AI 税收」「全民再教育」 的政策討論:如果 AI 搶走了人類的工作,那麼創造它的公司,要不要多繳點税?這些錢能不能用於再教育基金?

這聽起來像是老生常談,但區別是,這一次是真的來了。

四、安全:AI 世界的「攻防戰」,正在徹底失衡

説到 AI 安全,很多人第一反應是:「會不會哪天模型突然暴走?」但現實要複雜得多、也殘酷得多。

2025 年的 AI 安全,不再是「有沒有問題」的討論,而是「攻防是否還平衡」的問題。而報告的答案,幾乎可以説是:不再平衡,甚至已經傾斜得很危險。

安全投入,擋不住五個月翻倍的攻擊能力

先看一組令人頭皮發麻的數據:

「攻擊能力每 5 個月翻一倍。」

什麼意思?就是你剛剛設立一道防線,五個月內就會被新方法繞過、穿透,甚至自動化批量化。

與此同時,頂級實驗室雖然砸了史無前例的錢在安全上,但外部的非盈利安全研究機構,一整年的預算還不夠這些實驗室一天的成本。

這是一種極度不對等的結構:做出模型的,是富可敵國的巨頭;試圖監督它們的,是幾間辦公室幾臺電腦的非盈利團隊。

這就像讓一個手持盾牌的騎士,去攔截一羣開坦克的盜賊。

報告里的話説得很直白:

「前沿 AI 實驗室的進展速度已經遠遠快過了任何形式的安全對策機制。」

安全研究的新方向:從語言監控轉向結構控制

報告里對安全研究的重點做了非常清晰的分類:

  • 數據層安全:現在主流的做法,是在模型訓練前就把有害內容過濾掉,或者在訓練中加語境標籤、拒絕學習某些模式。這個方向已經比較成熟,能明顯降低「越獄」率。

  • CoT 安全監控:思維鏈(Chain of Thought)不僅能讓模型「顯得像在思考」,還意外成為一種檢測作弊的工具。報告提到,95% 的Reward Hacking行為可以被思維鏈暴露。但問題來了:攻擊者也會「裝」一條合法的思維鏈出來。

  • 無語言推理模型(如 COCONUT):爲了省算力,有些團隊開始研究「完全不靠語言」的模型,比如圖結構推理、邏輯樹模型。這種模型更難出現幻覺,但也更難監控。因為你根本看不見它在説什麼。

《State of AI Report 2025》也在最后列出了未來 12 個月的 10 個預測。

讀完整份報告,我最大的感受是:AI 已經從「一個工具」,變成了「一個結構」。

它正在改寫科學的生產方式、資本的流動邏輯、權力的分配體系,甚至人的定義方式。

我們曾以為,AI 會像電一樣普及,像互聯網一樣連接世界。

但現在它告訴我們,它更像語言本身——我們習慣用它表達,卻越來越難脱離它思考。

這令人震驚,也令人興奮。

因為我們正身處其中,親歷這場變化。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。