熱門資訊> 正文
2025-10-05 14:40
(來源:機器之心)
早在 2021 年,研究人員就已經發現了深度神經網絡常常表現出一種令人困惑的現象,模型在早期訓練階段對訓練數據的記憶能力較弱,但隨着持續訓練,在某一個時間點,會突然從記憶轉向強泛化。
類似於「頓悟時刻」,模型在某一刻突然理解了數據的內在規律。
這種現象被稱為「grokking(延迟泛化)」。該現象挑戰了傳統關於過擬合與泛化關係的理解,因此成為揭示神經網絡學習機制的重要研究方向。
數年時間過去,相信大家對大模型的「頓悟時刻」早已不陌生,在探究大模型 grokking 的成因和基本原理的領域已經有了許多重量級研究。
而在最近, Meta 超級智能實驗室(FAIR)的新論文再一次針對頓悟現象進行了更深層次的探討,這篇論文通過給出 grokking 現象的數學可解釋模型,讓人們更清楚地理解深度網絡如何從「死記硬背」過渡到「真正學習」。
值得關注的是,這篇文章僅有唯一作者:Meta FAIR 研究科學家總監田淵棟,是一篇一個人的論文。
論文標題:Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
論文鏈接:arxiv.org/abs/2509.21519
本研究提出了一個名為 Li₂ 的數學框架,用以解釋 Grokking(延迟泛化) 現象在兩層非線性神經網絡中的學習動態。具體來説,該框架:
精確描述了訓練過程中將會涌現的特徵,揭示了模型如何逐步形成泛化表示;
給出了泛化與記憶的可證明縮放定律 —— 對於階數為 M 的羣運算任務,僅需 O (M log M) 個數據樣本即可實現泛化行為;
從理論上解釋了一個流行經驗假設:即「泛化電路學習速度較慢,但比記憶電路更高效」。
如圖所示,Li₂ 將學習過程劃分爲三個階段 ——(I) 惰性學習(Lazy learning)、(II) 獨立特徵學習(Independent feature learning)以及 (III) 交互特徵學習(Interactive feature learning),以此解釋 grokking 的動力學過程,即網絡先經歷「記憶」階段后再實現「泛化」。
Grokking 行為的解釋:在 grokking 初期,惰性學習階段對應記憶過程,頂層利用隨機特徵找到一個暫時的解來擬合目標。之后,反向傳播的梯度纔開始有意義,促使隱藏層學習到可泛化的「新興特徵」。
新興特徵:這些特徵是能量函數 E 的局部極大值,支配着獨立學習階段。這些特徵在標籤預測上的效率高於簡單記憶。
數據決定能量景觀:充足的訓練數據可以保持這些可泛化局部極大值的形狀,而數據不足則會導致非泛化的局部極大值。
特徵出現、泛化與記憶的尺度律:通過研究能量景觀隨數據分佈變化的方式,可以推導出相應的尺度規律。
如圖右側所示,論文分析覆蓋了不同的網絡寬度 K 和權重衰減係數 η,展示了它們對學習動態的影響,涵蓋 NTK 區域與特徵學習區域。在特徵學習階段,藉助能量函數 E(定理 1),我們將學習到的特徵描述為 E 的局部極大值(定理 2),並推導出維持這些特徵所需的樣本規模,從而建立了泛化與記憶的尺度律。
Li₂ 框架的三個階段 (a) 隨機權重初始化。(b) 階段 I:惰性學習。(c) 階段 II:獨立特徵學習。 (d) 階段 III:交互特徵學習。
階段 I:惰性學習
在這一初始階段,輸出層權重 V 會迅速調整,以隨機初始化的隱藏特徵來擬合訓練數據。反向傳播到隱藏層的梯度 G_F 基本上仍是隨機噪聲,無法驅動隱藏層權重 W 學到有意義的特徵。這導致模型表現爲「記憶」行為,泛化能力較差。
實驗驗證結果展示了 grokking 的三個階段:在 輸出層發生過擬合(階段 I) 之后,隱藏層權重纔開始更新。
階段 II:獨立特徵學習
當權重衰減項 (η> 0) 生效時,梯度 G_F 開始攜帶關於目標標籤的結構化信息,模型進入第二階段。論文證明,在一定條件下,每個隱藏單元的動態是相互獨立的,並遵循以下能量函數的梯度上升過程(定理 1):
該能量函數可視為輸入與目標之間的一種非線性典型相關分析(nonlinear CCA)。
左圖:當採用線性激活時,E 可簡化為普通的特徵分解,僅存在一個全局最大值。
中圖:引入非線性后,能量景觀出現多個嚴格的局部最大值,每個最大值對應一個特徵。更重要的是,這些特徵在目標預測中比記憶化更高效。
右圖:當訓練數據充足時,能量景觀保持穩定,可以恢復這些具有泛化能力的特徵;而當數據不足時,能量景觀會發生顯著變化,局部最大值退化為記憶化特徵。
實驗表明:隨着羣結構複雜度增加(特別是非阿貝爾羣),泛化閾值的變化依然符合理論的對數尺度規律,驗證了 Li₂ 框架推導的特徵涌現與泛化的尺度定律(scaling law)。
在模加運算的小數據場景下,設 M = 127 且 n = 3225(在 1272 個樣本中使用 20% 進行訓練),使用較小學習率的 Adam 優化器(0.001,對應左圖;0.002,對應中圖)能夠得到可泛化的解(傅里葉基),並且誤差 E 較低;而當使用較大學習率(0.005,對應右圖)時,Adam 則會找到不可泛化的解(例如記憶化),此時誤差 E 明顯更高。
羣算術任務相關內容,請參閱原論文。
階段 III:交互特徵學習
隨着隱藏層權重不斷更新、特徵逐漸涌現,隱藏單元之間的交互開始變得顯著。該框架表明,相似特徵之間會產生「排斥效應」,而梯度結構則會自適應地優先學習尚未捕獲的特徵,從而保證特徵表示的多樣性與完整性。
我們首先研究 B 的作用,它會引起隱藏節點之間的相互作用。在訓練過程中,兩個節點的激活可能高度相關,定理 6 表明,相似的特徵會導致排斥效應。
在訓練過程中,某些局部最優解可能先被學習,而其他則在后期才被學習。當表示僅被部分學習時,反向傳播提供了一種機制,可以聚焦於尚未學習的部分,通過改變能量函數 E 的形態來實現(定理 7,自上而下的調製)。
對於具有 Σ(x) = x^2 的羣算術任務,如果隱藏層僅學習了一部分不可約表示集合 S,那麼反向傳播梯度
會產生一個修改后的能量函數 E_S,其局部最大值僅出現在尚未學習的不可約表示 k∉S 上。
對更深網絡的擴展
雖然嚴格分析集中在兩層網絡上,論文也給出了對更深架構的定性擴展。核心觀點是,特徵學習會從低層向高層傳播,而殘差連接(residual connections)可能提供更乾淨的梯度,從而促進多層特徵的生成。
Adam 與 Muon 優化器的比較結果表明,Muon 在實現泛化方面表現更優,尤其是在隱藏單元數量受限的情況下。
總結與討論
兩種不同的記憶(memorization)類型
從分析來看,grokking 中的記憶來源於對隨機特徵的過擬合,這與由於有限或噪聲數據而遵循特徵學習動力學得到的記憶解不同。從這個角度看,grokking 並不是從記憶切換到泛化,而是從過擬合切換到泛化。
平坦(flat)與尖鋭(sharp)極值
常識通常認為平坦極值對應可泛化解,而尖鋭極值對應記憶或過擬合。從 Li₂ 的觀點來看,當模型對隨機特徵過擬合時會出現尖鋭極值,此時權重的微小變化會導致損失大幅變化。另一方面,我們可以證明能量函數 E 的局部極值是平坦的,因此在某些方向上權重的小幅變化不會改變 E。如果模型是過參數化的,則多個節點可能學習相同或相似的特徵集合,從而為損失函數提供平坦性。如果由於有限 / 噪聲數據學習了記憶特徵,則需要更多節點參與「解釋」目標,整體權重會顯得不那麼平坦。
小學習率與大學習率
根據分析,在階段 I,需要較大學習率以快速學習脊狀解 V,使反向傳播梯度 G_F 變得有意義,從而觸發階段 II。在階段 II,最佳學習率取決於可用數據量:
數據量大時,可以使用較大學習率快速找到特徵。
數據量有限時,可能需要較小學習率以保持在可泛化特徵的盆地內,這可能與常識認知相矛盾。
更多研究細節,請參閱原論文。