熱門資訊> 正文

大模型「越用越快」，SpeedupLLM首次驗證，大降56%推理預算

2025-07-10 09:57

Lumber Liquidators Holdings, Inc.(LL) 0
C3.ai Inc(AI) 0
培生(PSO) 0

LLM用得越久，速度越快！Emory大學提出SpeedupLLM框架，利用動態計算資源分配和記憶機制，使LLM在處理相似任務時推理成本降低56%，準確率提升，為AI模型發展提供新思路。

在人類的認知世界里，熟練意味着更快、更高效。

比如看似複雜的魔方，只需訓練幾十次后便能「盲擰」；而面對一道做過幾遍的數學題，我們往往能在腦海中迅速復現思路，幾秒內作答。

那，大語言模型也能這樣嗎？

Emory大學的研究者Bo Pan和Liang Zhao最近發佈了一篇令人振奮的成果：大語言模型的性能，也和熟練度有關，確實能「越用越快」！

論文地址：https://arxiv.org/abs/2505.20643

論文首次系統性地驗證了LLM在「有經驗」的條件下，不僅性能不降，反而能大幅減少推理時間和計算資源，揭示了「AI也能熟能生巧」的全新範式。

如何讓LLM變熟練？

為系統驗證「熟練加速效應」，作者提出一個統一框架，構造並量化三類記憶機制下的「使用經驗」。

該框架由兩部分組成，一是推理時動態計算資源分配，二是記憶機制。

對於動態計算資源分配，該文章系統性將多種已有test-time scaling方法擴展成動態計算資源分配，從而允許LLM在熟練的問題上分配更少的計算資源。

對於記憶機制，該框架引入記憶機制，從而實現通過過往經驗加速當前推理。

在多輪使用中，大模型是否能像人類一樣「從經驗中變快」？是否存在一種方法，能系統性地提升效率，而非單純堆算力？

研究亮點1：用經驗節省算力

在任務重複或相似的推理過程中，研究者發現LLM通過利用以往經驗（包括 memory cache、in-context memory 等），可以實現減少高達56%的推理預算，保持甚至提升準確率。

這意味着模型在處理「熟悉」的任務時能少走很多彎路，不僅答得準，還答得快。

研究亮點2：系統性大規模實驗

爲了驗證普適性，研究者考察了：

多種test-time scaling方法，包括Self-Refine、Best-of-N、Tree-of-Thoughts和當前最新的Long Chain-of-Thought（o1式思考）

多種記憶，包括監督學習（Supervised Fine-tuning）、檢索過去經歷、三種自我反思（Reflection）

多種問題相似度，包括LLM在1）完全相同、2）意思一樣僅表述不同、3）題目一樣，僅換數字、4）不同題目但需要相同知識回答。

不同機制均表現出顯著的推理加速，展示了這一現象的廣泛性。

實驗結果

在「重複問答」、「分步推理」等任務中，越是「重複」，模型推理越快，效果越好。而且，這種趨勢隨着經驗積累更加明顯。

實驗結果帶來了以下八大關鍵發現：

發現一：LLM真的可以「越用越快」！

實驗結果表明，在配備適當記憶機制和計算預算調控策略的前提下，LLM在處理重複或相似任務時，平均可節省高達56%的推理開銷，且這一行為在80組實驗設置中有64組都出現了顯著的加速現象，覆蓋率高達80%，驗證了「經驗式加速」具有普適性。

發現二：越快≠越差，反而更準！

令人驚喜的是，推理成本的下降不僅沒有犧牲準確率，反而普遍帶來了準確率的提升。實驗測得推理成本與準確率提升之間的Pearson相關係數為 -0.41（p=0.0002），這表明「更快」也意味着「更穩」「更準」。

發現三：相似度越高，提速越明顯

研究設計了4個相似度等級，從完全重複（S1）到結構變化大（S4）。結果發現，S1和S2類問題下的加速最顯著（分別節省16.0%和15.4%計算），而S4問題由於結構不同、記憶不具備直接遷移性，加速效果最弱。

發現四：問題相似度低時，記憶機制可能反噬

當問題間差異過大時，記憶機制可能誤導模型走錯方向，導致推理成本反升、準確率反降。這種現象在部分S4設置中顯著，提示我們記憶並非越多越好，而應「選得準、用得巧」。

發現五：情節記憶 > 反思記憶，更能加速推理

在不同記憶機制對比中，情節式記憶（如SFT和In-Context）在推理加速上表現更佳。例如In-Context平均節省27.4%計算，而反思類記憶僅為3.6%~8.8%。這與心理學研究一致：人類在形成熟練技能時，最初依賴的是具體實例的情節記憶。

發現六：In-Context比SFT更高效

在低樣本（1~3輪）場景下，In-Context學習相比SFT更具泛化能力、更少過擬合，尤其在本研究的推理速度上，In-Context 更快、更穩、更準，展現了非參數記憶的強大即時適應力。

發現七：文本記憶易「觸頂」，參數記憶可持續提速

反思類與In-Context等文本記憶方法存在上下文窗口的「瓶頸」，在加入3個案例后效果逐漸飽和；相比之下，SFT通過權重更新記憶內容，不受窗口限制，推理速度隨經驗持續提升。

發現八：越「泛化」的反思，提速越明顯

三種反思機制中，Reflect-Update表現最佳。原因在於它能持續總結抽象規則，而不是堆積具體數字或案例。這種「泛化性強」的反思更容易跨任務遷移、輔助加速，未來設計更好反思機制時值得關注。

讓LLM擁有「記憶力」和「熟練度」

這項研究提出了一種值得重視的新範式：

推理效率不只是堆硬件，也能靠「學習歷史」提升。

在客服、搜索、問診等反覆場景中，部署「記憶型LLM」將帶來：更低的響應延迟、更少的算力消耗、更強的適應性和個性化。

這項研究不僅補足了現有推理加速研究的空白，更為構建「具備人類熟練性」的AI模型提供了新思路。

參考資料：

https://arxiv.org/abs/2505.20643

本文來自微信公眾號「新智元」，作者：新智元，36氪經授權發佈。

大模型「越用越快」，SpeedupLLM首次驗證，大降56%推理預算

如何讓LLM變熟練？

研究亮點1：用經驗節省算力

研究亮點2：系統性大規模實驗

實驗結果

讓LLM擁有「記憶力」和「熟練度」

推薦文章

一周財經日曆 | 特朗普對等關税將於8月7日生效；Palantir、超微電腦等財報來襲

8月金股搶先睇！港股能否繼續抽升？哪些賽道值得關注

英諾賽科午前飆升逾31% 英偉達最新800V架構供應商名單曝光公司為中國唯一入選芯片企業

亞馬遜Q2業績會實錄：市場對AWS服務需求超過亞馬遜現有容量

特朗普官宣「對等關税」：各國税率10%至41%不等 加拿大上調至35%

盤后大跌6%！亞馬遜交出優秀財報 但云業務仍遜色於微軟谷歌

蘋果第三財季營收940.36億美元 淨利潤同比增長9%

外盤頭條：白宮稱特朗普將在午夜前設定新關税 蘋果季度營收遠超預期 Pimco青睞短至中期歐洲債券

特朗普官宣「對等關税」：各國税率10%至41%不等加拿大上調至35%

盤后大跌6%！亞馬遜交出優秀財報但云業務仍遜色於微軟谷歌

蘋果第三財季營收940.36億美元淨利潤同比增長9%

外盤頭條：白宮稱特朗普將在午夜前設定新關税蘋果季度營收遠超預期 Pimco青睞短至中期歐洲債券