熱門資訊> 正文

大模型如何推理？斯坦福CS25重要一課，DeepMind首席科學家主講

2025-08-16 12:59

瑞士信貸(CS) 0
Lumber Liquidators Holdings, Inc.(LL) 0
谷歌(GOOG) 0

（來源：機器之心）

機器之心報道

編輯：澤南、楊文

所有學LLM的人都要知道的內容。

這可能是對於大語言模型（LLM）原理最清晰、易懂的解讀。

前段時間，Google DeepMind 的首席科學家兼研究總監 Denny Zhou 在斯坦福大學的 CS25 課程中，分享了大語言模型推理的深刻洞見。

作為人工智能領域的領軍人物，Denny Zhou 通過這場講座對 LLM 推理機制及其優化方法進行了系統闡述，揭示了大模型推理的核心原理和最新進展。

Denny Zhou 總結了四個關鍵點：

LLM 中的推理僅僅意味着在得出最終答案之前生成一系列中間 token，這是否與人類推理相似並不重要，關鍵在於，Transformer 模型通過生成許多中間 token，可以變得極其強大，而無需擴展模型的大小。

預訓練模型即使未經任何微調，也具備推理能力。挑戰在於，基於推理的輸出往往不會出現在輸出分佈的頂部，因此標準貪婪解碼無法將它們呈現出來。

提示技巧（例如思維鏈提示或「讓我們一步一步思考」）和監督式微調曾是引發推理的常用方法，現在強化學習微調已成為最強大的方法，這一技巧被多個實驗室獨立發現。在谷歌，這要歸功於團隊成員 Jonathan Lai，基於理論，擴展強化學習應該專注於生成長響應，而不是其他目標。

通過生成多個響應然后將它們聚合起來，而不是依賴於單個響應，可以極大地提高 LLM 推理能力。

Denny Zhou 不僅是 Google DeepMind 的頂尖科學家，還曾在 Google Brain 創立並領導了推理團隊（Reasoning Team），現在該團隊是 DeepMind 的一部分，專注於開發具備推理能力的大語言模型，以推動人工智能通用智能的發展。

他的研究聚焦於鏈式思考提示（chain-of-thought prompting）、自一致性（self-consistency）和 LLM 優化等領域，在 Google Scholar 上累計獲得超過 83,000 次引用，對機器學習和 AI 領域貢獻顯著。

此外，他還共同創辦了語言建模大會（CoLM），並擔任 2024 年大會的總主席，曾榮獲 2022 年 Google Research Tech Impact Award 和 WSDM Test of Time Award，並在 KDD 2023 等活動中發表主題演講。他常在斯坦福、哈佛等大學進行邀請講座，分享關於 LLM 的觀點。

他參與教學的 CS25 《Transformers United V5》課程，目前已是斯坦福大學最熱門、最具研討性的課程之一，匯聚了 Geoffrey Hinton、Ashish Vaswani 和 Andrej Karpathy 等我們耳熟能詳的 AI 頂尖研究人員。該課程在斯坦福大學內外都廣受歡迎，YouTube 上的觀看次數更是高達數百萬。每個星期，人們在課上都會深入探討人工智能領域的最新突破，從 GPT 等大型語言模型到藝術、生物和機器人領域的應用。

課程頁面：https://web.stanford.edu/class/cs25/

接下來，讓我們看看 AI 領域的頂級學者是如何解讀大模型「推理」這一至關重要的能力的。

如今，很多人都已經相信大語言模型（LLM）是可以推理的了。實際上，我們還不知道這是否成立，這可能取決於對推理的定義。在這里，我們認為推理是輸入問題 - 輸出答案之間的中間步驟（生成的 token）。

LLM 中的推理僅僅意味着在得出最終答案之前生成一系列中間 token，這是否類似於人類的推理並不重要，關鍵在於，Transformer 模型可以通過生成大量中間 token 而變得幾乎任意強大，而無需擴展模型大小。

為什麼中間 token 在推理中至關重要？

Denny 認為，在推理中中間 token 的作用至關重要。他與斯坦福大學的 Tayma 教授及其學生合作，提出了一個理論：任何可以通過布爾電路解決的問題，都可以通過生成中間 token 來用恆定大小的 transformer 模型解決。

這個理論表明，邏輯電路的大小（即電路中邏輯門的數量）決定了解決問題的能力。比如，使用 GPU 集羣時，邏輯門的數量可能達到數千萬、數十億甚至數萬億。如果直接生成最終答案，可能需要極深的模型結構，甚至無法解決問題。而通過生成中間 token，模型就能以恆定大小的 transformer 架構有效地解決問題。這種思路提供了一種從理論角度理解推理的方式。

推理過程的技術細節

關於推理的一個常見看法是，語言模型不能推理，除非進行進一步的提示工程，比如安全提示或候選答案的微調，我同意這個觀點。我們可以簡單地認為，語言模型已經具備了推理能力，關鍵在於解碼過程。

舉個例子。這道簡單的數學問題：「我有 3 個蘋果，我爸爸比我多 2 個蘋果。我們一共有多少個蘋果？」如果你使用任何預訓練模型，比如 Llama、DeepSeek 或 Qwen，直接輸入這個問題，模型可能會輸出「5 個蘋果」，這是錯誤的。

這是因為使用了「貪婪解碼」方法，模型直接輸出最可能的答案。但是，如果我們多考慮一些候選答案，而不是隻選擇一個最可能的候選答案，模型就能產生一個更正確的答案，這就是「鏈式推理解碼」的概念。

它包含兩個步驟：第一步，超越貪婪解碼，檢查更多的生成候選；第二步，選擇那些最終答案置信度更高的候選。

鏈式推理解碼是一個非常簡單的方法，但它需要一些程序設計工作。我們還可以嘗試其他方法，如通過簡單的自然語言提示，直接指導模型進行鏈式推理，這就是「鏈式思維提示」奏效的原因。通過這種方法，我們可以使推理過程自然地出現在輸出空間中，而不需要複雜的計算步驟。

這些提示方法確實非常簡單，而且效果也非常好，但我們也能看到一些問題，例如安全提示方法就需要任務特定的示例。而另一個方法叫做「逐步思考」，它是一個通用的方法。你不需要找到類似的示例，只需説「讓我們一步步思考」，然后奇蹟般的結果就會出現。不過，它的表現比少量示例的提示差得多。

雖然這兩種方法看起來都不錯，但「逐步思考」方法有些怪。如果我問某人一個問題，然后要求他們跟我一步步思考，否則他們就無法繼續思考，這顯然不符合我們的期望。

現在有一種流行的方法：監督微調（SFT）。

實際上思路非常簡單，我們可以從人工標註者那里收集一系列問題及其逐步解決的方案，然后我們最大化人類解決方案的可能性，標記一些實際上用於 LLM 訓練的網絡代碼。在那之后，我們就可以在任何地方應用這個模型。Denny Zhou 等人在 2017 年的一系列研究中展示了這種能力，他們收集了大量文字問題及人工標註的解決方法。在 2021 年，這一方法被用來解決大規模問題，隨后 OpenAI 擴展了這一方法。

這是簡單的工作原理示意：用一系列例子、問題和答案微調你的模型，然后就可以在新的問題上進行測試了。比如這里就是眾多大模型難以回答的 strawberry 單詞里有多少個 r 的問題。很多人一度認為這個問題是用於測試 AGI 是否出現的「重大問題」。

SFT 實際上是一個通用的方法，如果這就能解決 AI 的推理問題，那事情就太簡單了，然而它的泛化能力是有限的。DeepMind 在 2021 年夏天意識到了這個問題，怎麼辦？只有 Scaling,Scaling,Scaling，找到更多數據來進行訓練，看看效果如何。

但這里有個教訓，不要盲目擴展規模，方向錯了就什麼也得不到。

如何解決 SFT 泛化失敗的問題？有兩個重要方面，首先是解決人類標註錯誤的問題。實際上谷歌一個發明 finetuning 研究的成員曾表示，他們發現機器生成的數據可能還要優於人類構建的數據。這是個有點反直覺的經驗。

讓 AI 實現自我提升

所以第一波嘗試被稱作自我提升，與其從人類那里生成、收集數據，我們可以直接讓模型生成數據。所以收集問題的數據集，你的模型要逐步生成解決方案，然后再次最大化正確答案的可能性。

比如一個數學問題，你有問題和答案，讓大模型生成解決問題的步驟，依據是否獲得正確答案來選擇正確的步驟。這就是 Reject Sampling，這里唯一的區別在於數據來自於你的模型，而非人類。

該研究的論文即《STaR: Bootstrapping Reasoning With Reasoning》，其本意是減少昂貴的人工標註成本。但從另一個角度來理解，一旦更好的模型生成了響應或訓練數據，模型就可以自我改進。

模型獲得了改進之后，又該從哪里收集數據呢？我們可以重複這個過程。

我們注意到字節跳動研究人員在 2024 年 1 月發在 arXiv 上的《ReFT: Reasoning with Reinforced Fine-Tuning》，這可能是 RL finetuning 的最早的學術出版物。甚至論文標題都叫做《基於強化調優的推理》。隨后，在 OpenAI 的 o1 公開之后，每個人都開始意識到要使用強化學習微調了。

可能有很多研究團隊獨立意識到了這個方向。

強化學習先驅 Rich Sutton 在《Verification, the key to AI》中曾提到，在 RL 微調中，可靠的驗證器是最關鍵的，而非 RL 算法。

那麼問題來了，除了效率問題以外，為什麼機器生成的訓練數據反而比人類的更好？

這與機器學習中的第一性原理相關，即直接優化我們想要的東西。如果我們想構建一個用於推理的模型，或者只是一般地用於生成有趣的內容，我們就需要優化衡量生成質量的指標。一旦你有了一個度量標準，我們所需要做的就是計算該度量標準的梯度並進行反向傳播。

因此，假設模型是一個先驗的模型，我們需要最大化該指標的期望值。那麼該怎麼做呢？我們需要進行採樣來計算期望值，這就是你得到策略梯度的原因。

這里沒有魔法（比如如何激勵你的模型進行同步，激活多個位置），不需要那些詞匯，這里只使用標準的機器學習術語，定義你的指標，計算梯度並進行反向傳播。

現在，這個方法運行良好，那麼就該 Scaling 了。朝哪個方向擴展呢？粗略地考慮，似乎隨着 COT 的增長，一個模型可以解決所有的問題，這都不需要模型尺寸的增長，只需要最小的固定大小的遷移模型，這樣也沒關係。

所以你如果查閲早期文獻會發現，人們認為 RL finetuning 效果好於 SFT。

這里不得不説到 LLM 推理的美妙之處了。這個類似於人類的推理過程源自逐個 token 的預測，而非像傳統 AI 那樣依賴搜索排序。

舉個例子，2024 年 12 月，谷歌發佈了 Gemini 2.0 思考模式，這里嘗試了一個訓練集里沒有的問題。使用 1 到 10 的數字來組成 2025，並且明智地使用每個數字以及加法和乘法這兩種基本運算。

右邊可以看到 Gemini 2.0 的思考過程，讓我們看看模型是如何進行思考的。這不是通過搜索。你可以看到，在一開始，模型就表示這是一個相對較大的數字，這表明乘法運算將大量涉及。這就像人類思考一樣。值得注意的是，2025 是 45 的平方，即 45 乘以 45。接着模型開始思考如何得到中間產物，使用乘法……

這就是模型訓練如此強大的原因。

再次引用 Rich Sutton 在《苦澀的教訓》中的話：Scaling 的發現只會讓我們更難看清發現過程是如何完成的。

看起來，Sutton 在看到 DeepMind 的 AlphaGo 和 AlphaZero 的成功之后，寫出了《苦澀的教訓》。真正可擴展的只有兩個過程，一個是學習，另一個是搜索。在這里我只想強調一件事。學習是可擴展的，我們只需要學習。

RL finetuning 的優勢在於它的泛化很好，但並不是所有任務都是可以由機器自己進行驗證的，比如寫作，甚至代碼編程。

我們必須牢記，LLM 是進行預測的模型，他們不是人類。

從數學角度來看，這意味着什麼？我們來思考一下 LLM 的解碼過程。給定問題和生成器推理，然后輸出最終答案，接着是通過網格解碼關鍵找到的響應，那麼關鍵點就是匹配概率。

對我們來説，需要選擇概率最大的答案。所以它們沒有對齊，我們只需要再進一步。如果我們生成推理過程，我們應該有一些整體推理過程來找出最終答案在機器學習方面的概率，這被稱為邊緣化。所有這些原因實際上本質上都只是潛在變量。如果我們剛開始接觸機器學習，實際上就會知道這個和可以通過採樣來計算。

因此，通過隨機抽樣生成多個響應，然后選擇出現頻率最高的答案。我們不看推理通過率，它只選擇最常見的答案，而不是最常見的任務通過率。這就是訣竅。這在實證中被稱為邊緣化。如果你採用這種方法，就會看到巨大的改進。

另一種方法是檢索。我知道關於檢索推理有很多辯論，很多人説語言模型可能只是做檢索而不是推理，對我來説，實際上總是很難區分檢索和推理。

我每年都會參加幾乎每一場會議，每次我們都會討論每篇論文的新穎性。其實，檢索和推理的辯論就像是類似的爭論。我看到過一個實驗，嘗試不同的模型並行運行，這樣做可能會讓結果更混亂。比如，使用 4 個不同的模型回答同一個問題，最后再對比答案，挑選出最一致的結果。

如果從不同模型中生成回答，這更像是一種「模型組合」（model assembly）方法，通過多個模型的輸出進行對比，選擇一個最佳答案，類似於隨機選擇。雖然數學原理不完全相同，但它們的實現方式是類似的。

關於檢索和推理的爭論，我個人並不太關注。我在工業界工作，更關注的是實際性能。對我來説，如果檢索能夠獲得 A + 級的答案，那為什麼還要爭論是否屬於推理呢？所以，2024 年我們發佈了一篇關於類比推理的論文。我可以用一個小例子來展示檢索在推理中的重要性。

考慮這樣一個問題：一個正方形的四個頂點的座標是…… 那麼它的面積是多少？這個紅色高亮部分是我添加的提示：「回憶一個相關的問題，然后解決這個問題。」

當時，我嘗試了 GPT 3.5 和我們自己的模型，但它們在沒有提示的情況下無法解答這個問題。然而，添加了相關問題的提示后，模型就能解決這個問題了。

發生了什麼呢？當我告訴模型回憶相關問題時，模型找到了一個相關但不同的問題。其實，這是一個與當前問題相關的問題，涉及計算座標平面上兩點之間的距離，並給出了公式。然后，模型説：「哦，我現在知道如何計算距離了，接着我就可以計算面積。」這個例子展示了檢索在推理中的重要性。

另一個例子是「后退一步」的方法。在解決問題之前，我們給模型提供了一些簡短的例子，讓它理解如何抽象化思考。例如，在解決實際問題之前，我們可以讓模型「后退一步」，思考更抽象的原則，然后再應用到實際問題中。這就是檢索在推理中的作用。

我想現在大家都明白，深度學習研究（Deep Research）團隊的理念也與此類似。我們有一個叫做「深度研究」的團隊，其中一位負責人曾是我的實習生。后來，他加入了 OPI 併發明瞭「深度研究」方法。你們看到的區別就在於，他們通過檢索相關問題或知識，幫助解決實際問題，基本思路其實非常簡單。

最后，Denny Zhou 進行了總結：其實大家不必再糾結 AMS 是否能夠推理，至少在語言模型中，推理總是比沒有推理更好，Alpha 微調比 SFT（監督微調）更好，聚合多個答案比只選一個答案更好，當然，這會更昂貴。而檢索和推理的結合比單純的推理要好得多。

對於未來的突破，Denny Zhou 表示，他非常期待看到如何解決那些超出唯一、可驗證答案的任務。他認為，基準測試很快會趨於飽和，更多的研究應該集中在構建真正的應用程序上，而不僅僅是解決學術性基準測試問題。

Denny Zhou 引用了 Richard Feynman 的名言：「真理總是比你想象的更簡單。」他強調，這句話對於機器學習研究尤其適用。很多學術論文過於複雜，但實際上，我們的研究可以保持簡潔明瞭。

參考鏈接：

https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

https://www.youtube.com/watch?v=ebnX5Ur1hBk&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=38

https://x.com/denny_zhou/status/1948499173986201915

大模型如何推理？斯坦福CS25重要一課，DeepMind首席科學家主講

推薦文章

一周財經日曆丨降息信號將定？下周全球央行年會成關鍵；小米、泡泡瑪特、快手領銜港股財報潮

港股周報丨見證歷史！南向資金單日瘋狂買入港股359億港元；騰訊績后股價一度升破600港元

特朗普政府據悉考慮動用芯片法案資金來入股英特爾

美股機會日報丨「恐怖數據」符合預期，交易員下調美聯儲降息預期；巴菲特Q2新建倉股飆升，聯合健康盤前漲超10%

銀諾醫藥-B上市首日暴漲285%，一手賺超1萬港元

投資大佬Tepper減持阿里巴巴、京東等 買入股價暴跌的聯合健康

伯克希爾減持蘋果股份 增持聯合健康集團

8月15日外盤頭條：特朗普政府洽購英特爾股份 貝森特否認推動降息 蘋果重新設計Apple Watch血氧功能

投資大佬Tepper減持阿里巴巴、京東等買入股價暴跌的聯合健康

伯克希爾減持蘋果股份增持聯合健康集團

8月15日外盤頭條：特朗普政府洽購英特爾股份貝森特否認推動降息蘋果重新設計Apple Watch血氧功能