熱門資訊> 正文
2025-10-21 11:41
(來源:機器之心)
在大模型微調實踐中,SFT(監督微調)幾乎成為主流流程的一部分,被廣泛應用於各類下游任務和專用場景。比如,在醫療領域,研究人員往往會用領域專屬數據對大模型進行微調,從而顯著提升模型在該領域特定任務上的表現。
然而,問題隨之而來:SFT 是否會讓模型 「遺忘」 原本的通用能力? 過去的研究中,不少文獻指出,領域微調固然能帶來專用性能的提升,但代價是模型在數學推理、代碼生成、指令跟隨等通用 benchmark 上出現顯著退化。這種現象被廣泛稱為 「災難性遺忘」。然而,這一長期流傳的看法或許值得重新審視。
來自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究團隊最新發布的一項工作就給出了不同的答案。研究表明,領域特定的 SFT 並不總是會嚴重削弱模型的通用能力。相反,在訓練中採用更小的學習率,模型就可能在兩方面取得平衡:
在通用任務上的能力遺忘被大幅緩解;
在目標領域上的表現依然與大學習率相當。
換句話説,遺忘問題可能更多源於訓練策略的選擇,而不是單單 SFT 這一範式本身。
論文標題:SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
論文地址:https://arxiv.org/pdf/2509.20758
一句話概括:稍微更小的學習率能大幅度緩解遺忘,TALR 則是進一步平衡的利器。
實驗細節:重新審視學習率對 SFT 帶來的影響
實驗設置
任務與數據。 領域側選擇兩個現實強相關的場景和領域專屬數據集:MedCalc 和 ESCI 。選擇這兩個數據集的原因在於它們代表了開源 LLM 在現實應用中表現最薄弱的場景,因此也是最有必要做 domain-specific SFT 的場合。
MedCalc(醫療推理):10.1k 訓練 / 1.05k 測試,每條樣本含患者筆記與臨牀指令;SFT 學習的目標為 「推理過程(CoT)+ 最終答案」。指標用 Accuracy。
ESCI(電商商品多分類問題):49k 訓練 / 10k 測試,四類標籤(Exact/Substitute/Complement/Irrelevant)。設置分 w/ CoT(推理 + 標籤)與 w/o CoT(僅標籤)兩種;主指標用 Balanced Accuracy (BACC) 以應對類別不均衡。
模型與評測
選取多種規模 / 家族的開源 LLM 做實驗:Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。統一採用監督微調(SFT),核心控制變量是學習率(lr),取 1e-6 / 5e-6 / 2e-5 三檔,其他訓練超參遵循常規 SFT 實踐。
SFT 完成后,在不同 lr 下先以目標領域指標挑選最佳 checkpoint,再用 IFEval(指令跟隨)/ GSM8K(數學)/ HumanEval(代碼) 進行 「通用能力」 評測,報告三者的均值作為總分(General performance)。這一流程貼近 「實際落地優先領域效果、隨后回看通用能力」 的場景。
實驗結果
實驗結果如圖所示。每個點表示某一 lr 下的(Domain performance,General performance)二元座標;灰色 「Init」 星形代表微調前的模型性能。
研究發現一:更小的學習率帶來更優折中
在 MedCalc 和 ESCI 上,使用更小的學習率(如 1e-6)時,模型能同時保持目標領域的強性能,並顯著減輕通用能力的下降。換句話説,災難性遺忘可以通過學習率控制來大幅度緩解。
研究發現二:對於分類問題,僅分類標籤監督放寬了學習率約束
當訓練目標只包含最終標籤(不需要中間推理鏈)時,實現理想折中的學習率範圍會更寬。在 ESCI (w/o CoT) 的設定下,學習率 5e-6 甚至能表現得和 1e-6 一樣好,這與其他情況形成鮮明對比。
作者進一步在大規模數據集 MetaMathQA 上進行實驗。MetaMathQA 是一個大規模數學推理數據集,包含 395k 條訓練樣本。實驗採用 DeepSeek-Coder-7B 作為基礎模型。這一模型在數學推理任務上原本表現相對薄弱,因此是一個理想的測試對象。
在訓練過程中,研究團隊使用 MetaMathQA 進行監督微調,並將 GSM8K 作為目標領域的評測基準。結果顯示,即便在如此大規模的數據條件下,結論依然保持一致:更小的學習率(在這里 5e-6) 能夠在保持數學領域性能的同時(相比於大學習率 2e-5),顯著緩解模型在原來擅長的 Coding 能力的退化。換句話説,論文中提出的發現是同樣適用於大規模任務與模型的普適規律。
注:這里的學習率大小都是相對的,不同 task 的能夠達到最佳平衡的學習率也不同,比如 MedCalc 和 ESCI 是 1e-6,而 MetaMathQA 是 5e-6。在對應的數據集和最佳學習率下,它們都會盡可能抑制通用能力的遺忘,並且取得和更大學習率相匹敵的下游性能。
理論分析
爲了更好地解釋這些現象,作者團隊進一步從理論分析的角度尋找了支撐性的 insight。
他們首先得到了一個關鍵結論:較小的學習率能夠嚴格收緊通用性能下降的上界。換句話説,使用更小的分佈更新步長意味着模型在提升目標領域表現的同時,更有保障地保留住已有的通用能力。這正好與實驗中的 Finding 1 相呼應。
緊接着,團隊又給出另一條理論解釋:當訓練目標只包含最終標籤時,模型在每個樣本中遇到的 「難 token」 數量減少,從而拓寬了可接受的學習率範圍。這也就解釋了實驗中 ESCI (w/o CoT) 的現象 —— 為什麼在沒有推理鏈的情況下,較大的學習率(5e-6) 依然能夠保持良好的折中效果。這對應着實驗中的 Finding 2。
小結與反思
論文在實證和理論分析的基礎上指出,小學習率雖然能顯著減輕通用能力的下降,但並不能完全消除這一問題。在某些場景下,即便採用了更小的學習率,仍然會觀察到一定程度的通用能力的性能退化。同時,較小的學習率雖然在大多數情況下領域性能與較大學習率相差無幾,但在某些任務里差距依然不可忽視。這意味着,如果應用場景里必須優先保證目標領域的最高性能,研究者仍然可能選擇使用較大的學習率。但隨之而來的問題是:更大的學習率幾乎必然帶來更嚴重的通用性能下降。因此,開發額外的緩解策略,尤其是在大學習率條件下抑制遺忘,顯得同樣重要。
為此,作者團隊深入探索更佳的策略。從理論分析進一步得到啓發,作者發現導致遺忘的關鍵因素之一是 hard tokens(低概率 tokens) —— 它們在訓練中的更新幅度往往遠大於 easy token,從而對通用能力退化有較大影響。這一觀察自然引出了新的思路:可以設計 「token 自適應的 reweighting 策略」,在訓練時直接降低 hard token 的損失權重,從而抑制它們對通用能力的過度侵蝕。
Token 自適應 Loss 重加權 (TALR)
方法細節
前面的理論分析已經指出,災難性遺忘的一個重要來源在於 hard token(低概率 token)。一個自然的思路是:在訓練時降低這些 hard token 的權重。但問題在於,如何自動識別 hard token,並動態決定它們應該被削弱多少? 如果僅僅依賴固定閾值或手工設定參數,不僅缺乏普適性,也難以適配不同模型與任務。
爲了解決這個問題,作者團隊提出了 TALR(Token-Adaptive Loss Reweighting),即通過建立一個約束優化問題進行求解來獲得自適應的權重。其核心思想是:根據每個 token 的預測概率,自適應地分配權重;置信度低(概率小)的 token → 權重更小,從而削弱這些 hard token 在訓練中的過度梯度貢獻。
這種方法通過建立約束優化問題實現,可以得到解析解,訓練時在每個 batch 都會動態更新權重,始終與模型的置信度保持一致。
其中,τ 的選取也是自適應的,由在每個 batch 中依據序列平均損失的中位數動態確定。作者指出,這樣的自適應 τ 的選取可以取得一致比較好的結果。若固定温度係數 τ 比如 τ=1,則模型會無法學習領域的知識進而在 domain performance 上表現很差。基於此,整體的算法流程如下:
實驗結果
研究團隊在 MedCalc 基準 上,系統比較了多種具有代表性的災難性遺忘緩解策略,包括 L2 正則化、LoRA、Wise-FT(模型平均)、FLOW,以及他們新提出的 TALR 方法。實驗在兩種學習率設定下展開:較小學習率 (1e-6) 和 較大學習率 (5e-6)。
小學習率 (1e-6). 結果顯示,大多數方法在這一設定下表現接近,幾乎都聚集在圖像右上區域。這説明單純降低學習率本身,已經能夠在保持領域性能的同時,有效緩解通用能力退化。在小學率下,TALR 與其他方法相比差距不大,但依然展現出更穩定、更平滑的折中表現。
大學習率 (5e-6). 當學習率升高時,通用性能下降的幅度明顯加劇,幾乎所有方法的點位整體下移。在這種更具挑戰性的情況下,TALR 的優勢逐漸凸顯:無論在 Qwen2.5-3B 還是 Qwen3-4B 模型上,TALR 都能夠實現更優的 Pareto 前沿位置,在保持領域增益的同時,顯著減少通用性能的損失。
小結:整體來看,當條件允許時,小學習率本身已能帶來可靠的折中效果;但在必須依賴較大學習率以進一步提升領域性能時,TALR 展現出顯著優勢。然而,現有方法仍無法徹底消除高學習率帶來的性能退化,這一現象也揭示出未來研究的重要方向 —— 如何探索更強大的緩解策略,以在大學習率下兼顧領域能力和通用性能。
Token 層面的深入分析
作者進一步從 token-level 對 SFT 進行分析,首先是計算 model 對每個訓練的 token 的置信度(概率),計算如下。
多數 token 容易,少數 「難點」 成瓶頸
在更細粒度的 token 層面,研究團隊進一步揭示了 SFT 過程中隱藏的現象。結果顯示,對於一個只能取得不到 10% 準確率的模型,大多數訓練數據中的 token 對模型來説學習難度並不大。換句話説,模型往往能夠以較高置信度預測這些 token,尤其是在推理鏈條的中后段,一旦上下文信息積累到位,LLM 很容易繼續生成后續 token。
相比較而言,性能非常差的歸因於一小部分 「hard tokens」—— 即模型在預測時置信度較低的 token。這類 token 通常出現在序列的早期位置,或是與特定領域的專業概念相關。例如,在 MedCalc 數據集中,涉及臨牀單位換算的 token 往往被模型賦予較低概率,這可能是因為相關知識在預訓練數據中覆蓋不足。這些 「hard tokens」 數量稀少,但卻可能成為決定性能的關鍵瓶頸。
統計分析進一步驗證了這一趨勢:從箱線圖中,對於跨多個模型變體的實驗,大部分 token 的概率分佈上四分位接近 1,説明模型對大多數 token 的學習信心都很高。但與此同時,模型在 MedCalc 這類專用任務上的零樣本表現依舊偏低,凸顯了少數高難度 token 的重要性。
TALR 的訓練動態:隱含 「課程式」 學習
更有趣的是,研究人員發現 TALR 在訓練中自發呈現出一種類似 「課程學習(curriculum learning)」 的機制。具體來説,TALR 會減輕置信度過低 token 的梯度更新幅度,優先讓模型通過置信度較高的 token 來驅動優化。隨着訓練逐步推進,越來越多之前被視為 「難點」 的 token 被納入大幅度更新範圍,訓練過程由 「易」 到 「難」,自然形成了一種動態的學習路徑。這一發現表明,TALR 不僅能在整體上緩解遺忘,還能在細節上為模型學習構建更合理的節奏,使其逐步掌握領域內的關鍵知識點。
結論與展望
自從 DeepSeek-R1 火了之后,業界普遍興起了一股 「RL can solve everything」 的浪潮,很多人認為強化學習纔是大模型能力提升的終極解法,而 SFT(監督微調)則顯得不那麼重要,甚至逐漸被忽視。事實上,這種看法忽略了一個根基性的事實:RL 的百花齊放,本質上是建立在高質量 SFT 打下的堅實基礎之上的。沒有強大的 SFT,RL 很難發揮出現在這樣的效果。換句話説,SFT 依然是一切的基石。
在這項研究中,UIUC 和 Amazon 團隊提供了實證和理論的雙重證據,挑戰了 「領域 SFT 會顯著損害通用能力」 的普遍認知。通過系統化實驗,他們發現:更小的學習率能夠帶來更優的性能折中,既能保持通用能力,又能提升目標領域表現。在此基礎上,團隊還提出了 TALR(Token-Adaptive Loss Reweighting),進一步緩解了災難性遺忘問題。
展望未來,研究人員也指出,沒有單一方法可以徹底解決 SFT 的遺忘問題。小學習率與 TALR 是有效的第一步,但更廣泛的數據集、更大規模模型(如 MoE 架構)、以及更系統的理論指導,都有待深入探索。
同時,這項工作也為 更好的領域適配 提供了重要啓發。例如在醫學場景中,很多專門化的醫療 LLM 反而不如基礎模型,這意味着如何在注入領域知識的同時保留基礎模型的通用能力,是未來值得關注的關鍵方向。
此外,論文還提醒業界:SFT 在 RL 之前的 「預熱」 階段同樣至關重要。如果過度 SFT,模型可能會過早穩定化,削弱探索能力,從而影響后續 RL 的效果。因此,如何在保持多樣性的同時抑制遺忘,將是下一階段值得深入研究的重要課題。
總的來説,這項研究不僅重申了 SFT 的價值,也為大模型未來的微調與適配提供了新的思路:RL 可能是顯學,錦上添花;但 SFT 仍然是地基,沒有它就難以穩如磐石。