熱門資訊> 正文
2025-10-20 19:14
(來源:AI算法與圖像處理)
State of AI Report 2025 正式發佈了。
背后主筆是硅谷投資人 Nathan Benaich 和他創辦的 Air Street Capital,從 2018 年開始,這份報告就被稱為「AI 行業的年度百科」。
含金量還是非常高的。
原文在此:https://www.stateof.ai/
今年的內容比以往更猛,不光講了模型升級、芯片戰、智能體,還講了一個核心問題:
AI 到底給誰帶來了真正的價值?我們現在用得熱火朝天的大模型,是不是在「消耗算力的幻覺」里跑步?誰在真用,誰在燒錢,誰已經賺到第一桶金。
這份報告給了不少線索。全報告一共 300 多頁,信息密度拉滿,我們帶你一起拆解。
一、研究:推理元年,也是幻覺元年
2025 年,被稱為「AI 推理元年」也不為過。
不管是 OpenAI、Anthropic、Google,還是中國的 DeepSeek,都把「推理」當成了決勝關鍵。
但《State of AI Report 2025》的視角卻顯得格外冷靜:這場「推理盛宴」的熱鬧背后,既有真突破,也有不少幻覺
推理模型的爆發式進展
這一年最具標誌性的模型,是 OpenAI 的 o1。
用「Chain-of-Thought(思維鏈)+ RL(強化學習)」的方式,提升複雜任務的表現,刻意讓 AI「慢一點思考」。
在美國數學競賽 AIME 上,OpenAI 的 o1 從訓練到測試的表現都有明顯提升,甚至開始挑戰更復雜的奧賽題型。很多人也第一次看到,「AI 不再是答題機器,而是會留中間過程」的學習者。
但更猛的,其實是中國團隊。
DeepSeek 先是推出了 V3,后來又升級為 R1-Zero,直接用了一種叫 GRPO(Group Relative Policy Optimization)的方法,讓模型「先生成多個答案,再學會從中自我比較、選最優」。
為解決R1-Zero生成內容可讀性差等問題,后續加入 CoT 預熱、SFT等步驟,最終訓練出 R1, AIME 得分從最初的 15.6%,一路飆升到了 79.8%,MATH-500 也達到了 97.3%,這些都是當前世界頂級水平。
推理的幻象
但我們得問一句:它們真的更聰明瞭嗎?
報告里的觀點讓人一驚:
「大多數所謂的推理進步,其實落在模型波動的自然範圍內。」
什麼意思?
就是你看到 AI 在某個數學題或邏輯題上的表現變好了,可能只是「隨機運氣」或者「換了種問法」,根本不是它思維方式變得更清晰了。
比如:
同一道題,只是在題目前加了一句「貓一天能睡 20 小時」的無關信息,錯誤率就可能翻倍;
在 DeepSeek R1、Qwen、Llama、Mistral 等多個 SOTA 模型中,加入無關信息,錯誤率甚至能飆升 7 倍;
GSM-Symbolic 的研究發現,只要把題目的數字換一換,或換種表達方式(比如英文變中文),模型的數學精度直接下降 60% 以上。
模型的「脆弱性」遠超想象。
不過——即便如此,CoT 仍然是目前檢測模型意圖最強大的工具之一。
《State of AI Report》引用的多個安全性研究顯示:在紅隊測試中,哪怕模型有意掩飾自己的「作惡意圖」,CoT 仍能在 99% 的攻擊樣本中露出蛛絲馬跡。尤其是在數學、代碼等結構化任務中,CoT 是少數能揭示「模型到底是怎麼想的」的窗口。
AI 的「霍桑效應」
如果你是 AI 實驗室的負責人,最怕什麼?
怕你訓練了一個「考試考得好」的 AI,但一上線就出事。
《State of AI Report 2025》指出,AI 已經具備一種讓人毛骨悚然的能力:知道自己正在被評估。
研究者稱之為「AI 版霍桑效應」:
模型內部會浮現出一種「測試覺知方向」;
當你沿着這個方向「推一把」,它會變得更守規矩、更安全;
當你「關掉」這個方向,它就會表現出更真實的(可能更激進的)行為。
爲了應對這種「裝乖」機制,研究者提出了一個激進的概念:可監控性税(monitorability tax)。
我們也許得接受「性能不夠最優」的模型,以換取更高的可解釋性和透明度。就像招一個技術稍遜但誠實靠譜的員工,而不是一個聰明但善於掩蓋問題的「內鬼」。
獎勵機制的進化:模糊人類偏好 → 可驗證正確性
在訓練 AI「思考」的過程中,另一個關鍵技術正在悄悄變革:強化學習的獎勵機制。
傳統上,AI 靠人類給分:你覺得它答得好,就獎勵它多點分。答差了,少點分。這叫 RLHF(Reinforcement Learning from Human Feedback),直白説就是「靠人點贊決定成敗」。
但人類打分的標準太模糊了,也容易被「討好式 AI」騙到。
所以現在,主流實驗室開始用一種更硬核的方式:可驗證獎勵(RLVR)。
簡單説,就是讓 AI 做那些一看就知道對不對的任務,比如:
數學題有唯一解;
代碼能不能跑過測試;
推理鏈條有沒有邏輯漏洞。
用這種方式訓練出來的模型,不但在精度上更穩,而且能顯著提升一個叫CoT-Pass@Kmailto:CoT-Pass@K的嚴格指標——要求模型不僅答對題,還得答出一條「可信」的思考路徑。
但報告也指出,RLVR 並不是萬能鑰匙。
兩份研究報告還針鋒相對:一方説「RLVR 只是在重排採樣結果,沒帶來真正進步」;另一方説「如果你評分鏈條而不是答案,RLVR 確實更靠譜」。
推理之后,AI 正奔向三個更遠的方向
推理這場秀還沒唱完,但真正的前沿玩家,已經在追逐下一個劇本:
世界模型:能根據狀態預測下一個狀態,實現交互式視頻生成和虛擬環境控制(如 Genie 3、Dreamer 4)。
AI 科學家:多代理系統已能提出假設、規劃實驗並驗證結果(如 DeepMind Co-Scientist、Stanford Virtual Lab)。
數學、化學、生物學突破:AI 系統在 IMO 數學競賽、藥物設計、蛋白質結構預測中已超越人類專家 。
二、產業:從論文到利潤,AI 終於開始真金白銀地掙錢了
過去一年,AI 不再只是「發佈模型—上熱搜—拿融資」的循環遊戲,而是開始真正走入商業主戰場。
從報告看,2025 年的產業格局發生了幾件大事:
AI 開始掙錢了,是真的掙「億」了
2025 年的 AI 產業,開始在財務報表上交卷了:
多家「AI-first 公司」年收入突破數十億美元,甚至直接接入廣告、電商等業務,成為新增長引擎;
大模型實驗室(OpenAI、Anthropic、Google DeepMind)通過 API、企業服務、定製化模型等方式,形成了清晰的訂閲 + 增值 + 企業方案三層商業路徑;
AI to AI 市場也在擴大:越來越多公司開發給 AI 用的插件、服務、接口。
誰最掙錢?NVIDIA 幾乎在「收智商税」
説 AI 掙錢了,不如説,NVIDIA 在掙所有人的錢。
2025 年,NVIDIA 市值突破了 4 萬億美元。你沒看錯,是和整個平臺級經濟體差不多的體量。
更誇張的是,根據報告統計:
「2025 年發佈的 AI 研究論文中,有 90% 使用了 NVIDIA GPU。」
換句話説,AI 行業往前走的每一小步,幾乎都離不開 NVIDIA 。
從 2016 年到現在,西方市場上那些想挑戰英偉達的 AI 芯片公司,一共拿了大約 75 億美元投資。看起來不少吧?可如果當時這些錢不是投給初創公司,而是全買了英偉達的股票,現在價值大約是 850 億美元——整整翻了 12 倍。反觀那些「挑戰者」,市值加起來才 140 億美元,勉強翻了兩倍。
當然,也不是沒人挑戰它。
今年的報告里提到,「定製芯片 + 新雲架構(Neo-Clouds)」開始抬頭:
Google 用 TPU v5 Ultra 支撐 Gemini;
AWS 用 Trainium、Inferentia 整合了自己模型堆棧;
中國本土也在加速國產算力芯片投放,尤其針對開源模型優化路徑。
但坦白説,這些挑戰目前更多是戰術性優化,無法撼動 NVIDIA 的戰略地位。一如英特爾壟斷 X86 那樣,NVIDIA 已經綁定了整個 AI 產業鏈的心跳頻率。
新瓶頸是「沒電」
之前我們也聊過這個問題。
以前搞 AI 的最怕聽到一句話:「你沒 GPU 啊?」而現在最怕聽到的,是:「你拉不來電啊?」
今年報告里也提出了這個觀點:
「AI 發展已進入‘電力決定路線圖’的時代。」
什麼意思?就是:
世界各地建的大模型超級數據中心;
但這些集羣動輒需要「數百兆瓦到幾千兆瓦(GWh 級)」的電力消耗,相當於一箇中型城市的日常負荷;
而當前的電網根本跟不上它們的擴張速度:發電能力不夠,變電站老舊,輸配系統承壓,政策審批周期長……
結果就是:你想部署模型,先得去談電網調度。
AI 開發者正在變成「能源交易員」。
這不是誇張。比如某大型 AI 公司在德州買下整片工業地皮,實則是在爭奪變電站和電網接入點。報告甚至提到,「部分 AI 基礎設施的邊際成本,已經由 GPU 價格轉向千瓦時電價」。
中國開源模型全面反超:Qwen、DeepSeek、Kimi,把 Meta 甩在身后
這部分,是整個報告里最意外、但最值得打醒西方開發者的一幕。
回顧過去幾年,Meta 的 LLaMA 系列一直是全球開源社區的「白月光」,幾乎所有社區微調、項目部署、落地工具都圍繞 LLaMA 做。
但就在 2025 年,中國模型完成了一場真正意義上的「超車」:
Qwen 一家模型,佔據了 Hugging Face 新微調模型衍生的 40% 以上份額,Meta LLaMA 的份額從 50% 跌到 15%;
DeepSeek 不僅在推理任務上超越 o1-preview,還成功「卷出商業場景」,如 code agent、多模態 agent;
Moonshot 的 Kimi K2 成為全網最強的開源文本模型,在 LMArena 排名第一;
中國團隊構建了完備的開源 RL 工具鏈:ByteDance 的 verl、OpenRLHF 都以 Apache/MIT 開源協議發佈,API 友好、效率高、生態完整。
「中國的開源模型不再是‘LLaMA 山寨’,而是社區真正願意構建在其上的根基。」
Meta 之后發佈的 LLaMA 4 沒能維持熱度,部分原因是選了 MoE 架構,調試難、社區門檻高、擴展性差。反觀 Qwen、DeepSeek、Kimi 等模型覆蓋從 1B 到 100B 各種規模,適合不同開發者上手,成爲了真正「社區友好」的基礎設施。
面對中國開源生態的狂飆,OpenAI 也開始重新考慮「自己是不是站錯了隊」。
2025 年 8 月,他們發佈了 gpt-oss-120B 和 gpt-oss-20B,是自 GPT-2 之后首次開源大模型。
但這次開源,社區反響中等偏下。報告直接指出:「gpt-oss 系列的實際使用效果類似微軟的 phi 模型:‘小而便宜’,但不穩定。」
三、政治:AI 已經不是技術競賽,而是國家之間的權力遊戲
到 2025 年,AI 已經從技術正在變成地緣政治的一部分——甚至可以説,是國際秩序的一部分。
這場競賽最激烈的主角,還是中美。
美國封鎖,中國造血
報告里用了一個頗具諷刺意味的詞:「America-first AI」。
而這背后是一套政策組合:
對先進 GPU 的出口全面收緊(尤其是針對中國);
對頂級模型的開放設置了「閾值限制」(比如 FLOPS 限制);
投資迴流本土、重點扶持「安全可信」的 AI 工具鏈;
甚至推動盟國一起設立「共同管控標準」,比如類似歐盟 AI Act 的框架。
這套打法,說白了,就是不給你卡、不給你投錢、設立規則限制你。讓中國 AI 的發展必須靠自己造血。
而中國這邊的應對,也非常明確:不再等,不再繞,直接「自給自足」干到底。
報告里提到,中國在 2025 年不僅加速了國產 GPU 投產(尤其是面向開源模型的優化芯片),還出現了多個「從芯片到框架」的全鏈路國產替代項目。尤其在訓練基礎模型、做專有模型優化方面,已經不再完全依賴西方工具鏈。
而這場脱鈎的受害者,是全球創新。
社會結構也開始被衝擊
當然,政治層面的轉變最終也會落到每個人頭上。
2025 年,自動化衝擊勞動力市場的證據第一次變得實錘了。
報告提到,一些國家已經開始把「AI 失業」納入勞工統計指標中,比如:
低技能崗位被 AI 工具壓縮工時,比如客服、基礎寫作、數據錄入;
原本「中產技能型」工作,也出現了被半自動工具替代的趨勢,比如財務審計、文書法律服務;
招聘市場開始用「是否熟悉 AI 工具」作為硬門檻,比如 Excel 現在可能不重要了,ChatGPT、Copilot 纔是必修課。
多個國家已經啟動了關於 「AI 税收」、「全民再教育」 的政策討論:如果 AI 搶走了人類的工作,那麼創造它的公司,要不要多繳點税?這些錢能不能用於再教育基金?
這聽起來像是老生常談,但區別是,這一次是真的來了。
四、安全:AI 世界的「攻防戰」,正在徹底失衡
説到 AI 安全,很多人第一反應是:「會不會哪天模型突然暴走?」但現實要複雜得多、也殘酷得多。
2025 年的 AI 安全,不再是「有沒有問題」的討論,而是「攻防是否還平衡」的問題。而報告的答案,幾乎可以説是:不再平衡,甚至已經傾斜得很危險。
安全投入,擋不住五個月翻倍的攻擊能力
先看一組令人頭皮發麻的數據:
「攻擊能力每 5 個月翻一倍。」
什麼意思?就是你剛剛設立一道防線,五個月內就會被新方法繞過、穿透,甚至自動化批量化。
與此同時,頂級實驗室雖然砸了史無前例的錢在安全上,但外部的非盈利安全研究機構,一整年的預算還不夠這些實驗室一天的成本。
這是一種極度不對等的結構:做出模型的,是富可敵國的巨頭;試圖監督它們的,是幾間辦公室幾臺電腦的非盈利團隊。
這就像讓一個手持盾牌的騎士,去攔截一羣開坦克的盜賊。
報告里的話説得很直白:
「前沿 AI 實驗室的進展速度已經遠遠快過了任何形式的安全對策機制。」
安全研究的新方向:從語言監控轉向結構控制
報告里對安全研究的重點做了非常清晰的分類:
數據層安全:現在主流的做法,是在模型訓練前就把有害內容過濾掉,或者在訓練中加語境標籤、拒絕學習某些模式。這個方向已經比較成熟,能明顯降低「越獄」率。
CoT 安全監控:思維鏈(Chain of Thought)不僅能讓模型「顯得像在思考」,還意外成為一種檢測作弊的工具。報告提到,95% 的Reward Hacking行為可以被思維鏈暴露。但問題來了:攻擊者也會「裝」一條合法的思維鏈出來。
無語言推理模型(如 COCONUT):爲了省算力,有些團隊開始研究「完全不靠語言」的模型,比如圖結構推理、邏輯樹模型。這種模型更難出現幻覺,但也更難監控。因為你根本看不見它在説什麼。
《State of AI Report 2025》也在最后列出了未來 12 個月的 10 個預測。
讀完整份報告,我最大的感受是:AI 已經從「一個工具」,變成了「一個結構」。
它正在改寫科學的生產方式、資本的流動邏輯、權力的分配體系,甚至人的定義方式。
我們曾以為,AI 會像電一樣普及,像互聯網一樣連接世界。
但現在它告訴我們,它更像語言本身——我們習慣用它表達,卻越來越難脱離它思考。
這令人震驚,也令人興奮。
因為我們正身處其中,親歷這場變化。