人大高瓴-華為諾亞：大語言模型智能體記憶機制的系列研究

2025-08-07 10:41

（來源：機器之心）

本系列工作第一作者張澤宇，中國人民大學博士生，研究方向為大語言模型智能體的記憶機制和個性化；譚浩然，中國人民大學碩士生，研究方向為大語言模型智能體。陳旭，中國人民大學預聘副教授，研究方向包括大語言模型，信息檢索等。

近期，基於大語言模型的智能體（LLM-based agent）在學術界和工業界中引起了廣泛關注。對於智能體而言，記憶（Memory）是其中的重要能力，承擔了記錄過往信息和外部知識的功能，對於提高智能體的個性化等能力至關重要。中國人民大學高瓴人工智能學院與華為諾亞方舟實驗室聚焦大語言模型智能體的記憶能力，在該領域的研究早期，形成了一套完整的包括綜述論文、數據集和工具包的研究體系，致力於推動該領域的發展。

智能體記憶機制的早期綜述

（TOIS'25）

論文標題： A Survey on the Memory Mechanism of Large Language Model based Agents
論文鏈接：https://dl.acm.org/doi/10.1145/3748302

在 2024 年 4 月，團隊完成了早期的關於智能體記憶機制的綜述。該綜述從不同角度對智能體的記憶進行了全面討論。該綜述討論了「什麼是智能體的記憶」和「為什麼智能體需要記憶」，總結回顧了「如何實現智能體的記憶」和「如何評測智能體的記憶能力」，歸納整理了「記憶增強的智能體應用」，並提出當前工作存在的侷限性和未來方向。通過該綜述，團隊希望能夠為研究者帶來啓發和討論，推動大語言模型智能體領域的發展。

什麼是智能體的記憶？

對於智能體的記憶，從記憶內容的來源出發，團隊提出了狹義和廣義兩種記憶概念：

狹義記憶：記憶是智能體在進行本次任務時與環境交互的歷史信息。

廣義記憶：記憶除了包括智能體在本次任務進行時與環境的交互信息，還包括此前完成該類任務的經驗，以及外部知識。

為什麼智能體需要記憶？

爲了更好地闡述記憶對智能體的重要性，團隊從認知心理學、智能體的自我進化和智能體的應用三個角度進行討論。

認知心理學角度：爲了更好地讓智能體完成任務，智能體的設計往往需要借鑑人類的思維特點。而記憶對於人類而言，在知識學習、概念提取、價值觀孵化、社會規範形成和文化萌芽等方面具有重要作用。

智能體的自我進化：在智能體與環境的交互過程中，記憶承擔了經驗積累、環境探索和知識提取的作用，使智能體能夠在於環境的動態交互過程中不斷自我進化。

智能體的應用：在智能體的實際應用中，記憶對於語境連貫、角色定位和領域知識積累等方面具有關鍵作用。

團隊從記憶的來源、記憶的實現形式和記憶的操作三個角度，分別對現有的智能體記憶實現方法進行分類和討論。

如何實現智能體的記憶？

從記憶的來源角度出發，團隊將現有工作分為三類來源，這種分類與上文中「廣義記憶」的三部分記憶內容來源相對應。

Inside-trial Information：智能體在進行本次任務時與環境交互的歷史信息。
Cross-trial Information：智能體在此前完成該類任務的歷史經驗信息。
External Knowledge：智能體在當前交互環境之外所獲得的信息。

從記憶的實現形式角度出發，團隊將現有工作分為文本形式（Textual Form）和參數形式（Parametric Form）兩種實現形式，不同的形式有各自的實現方法。

文本形式記憶：本質上是用顯式（Explicit）的方法表示記憶。在文本形式的記憶中，可以通過完全信息記憶、最近信息記憶、檢索信息記憶和外部工具信息記憶四類方法來實現智能體的記憶機制。

參數形式記憶：本質上是用隱式（Implicit）的方法。在參數形式的記憶中，可以通過模型微調和記憶編輯兩類方法來實現智能體的記憶機制。

從記憶的操作角度出發，團隊將現有工作按照記憶寫入、管理和讀取三個重要操作進行總結。

記憶寫入：智能體將重要的信息寫入記憶存儲，作為未來的推理和決策依據。在記憶寫入時，既可以寫入原始信息，也可以對其進行總結提取，或同時記錄輔助信息。

記憶管理：智能體將寫入的記憶進行管理與加工，例如記憶合併、記憶反思和記憶遺忘。

記憶讀取：智能體在決策時可以使用此前存儲的相關記憶信息，來為決策提供更多信息與知識。

如何評測智能體的記憶？

團隊將智能體記憶機制的評測分為直接評測和間接評測兩類。

直接評測：直接對單獨的記憶模塊進行評測，包括主觀評測和客觀評測。

間接評測：在智能體的實際應用中進行端到端的評測，通過不同記憶機制對相同智能體任務產生的性能影響，間接反映出各個記憶機制的能力。

記憶增強的智能體有哪些應用？

記憶推動了智能體在各領域中的應用，而在各個應用場景中，記憶所承擔的功能也各不相同。

角色扮演與社會模擬：在角色扮演和社會模擬中，記憶賦予了智能體不同的人格和自我感知，使他們能夠按照人設執行動作，從而區分於其他的智能體角色。基於不同的人格，它們可以進一步交互形成模擬社會。

個人助理：在個人助理中，記憶賦予了智能體記憶用户習慣和個性化需求的能力，使智能體能夠提供個性化的幫助。此外，記憶可以基於上下文，幫助智能體更好地理解當前用户的需求。

開放世界遊戲：在開放遊戲世界中，記憶賦予了智能體總結回顧過往經驗的能力，從而用於智能體的后續探索。另外，來自外部信息的記憶可以為智能體提供更豐富的知識，提升其探索能力。

代碼生成：在代碼生成和軟件開發中，記憶賦予了智能體更豐富的開發知識。此外，藉助過往記憶，智能體可以生成風格更加一致的代碼，同時有利於基於上下文進行需求澄清。

推薦系統：在推薦系統中，記憶賦予了智能體捕捉和維護用户個性化信息的能力，使它能夠更深入地理解用户的個性化需求，從而提供更符合用户需求的推薦結果。

領域專家系統：在領域專家系統中，記憶賦予了智能體豐富的領域知識。此外，記憶有利於提升知識的時效性，克服知識過時的問題。

侷限性與未來方向

最后，團隊進一步討論了當前智能體記憶機制工作的侷限性和未來方向，包括參數化記憶機制、多智能體記憶機制、記憶機制與終身學習和類人智能體的記憶機制。

智能體記憶機制的早期評測-MemSim

論文標題： MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants
論文鏈接：https://arxiv.org/abs/2409.20163
代碼倉庫：https://github.com/nuster1128/MemSim

在 2024 年 9 月，團隊進一步地對智能體記憶機制的評測方法進行了探究。團隊聚焦智能助手場景，提出了對用户事實性記憶的評測數據構造框架 MemSim，並構建了評測數據 MemDaily。基於 MemDaily，團隊對常用的智能體記憶方法進行了評測和分析。

用户事實性記憶評測數據構造

相比於世界知識，用户事實性記憶主要來源於不同個體，由智能體與用户個體交互而獲得，因此也是評測智能助手記憶的關鍵。團隊提出了 MemSim 框架，用以構建用户事實性記憶的評測數據。團隊首先提出了貝葉斯關係網絡，構造了表徵用户畫像概率分佈的元用户畫像，包含屬性層次和實體層次，並由此採樣出不同的用户畫像。

然后，團隊基於不同實體與屬性之間的關係，構造了多種形式的問答，包括單跳、多跳、比較、聚合和后處理等問答類型，以貼近真實場景下的用户問答。對於用户消息，團隊基於採樣屬性中的答案和噪聲構造事實信息元組，並藉助大模型的文本組織能力，生成得到流暢且包含特定信息的用户消息。基於 MemSim 框架，團隊在日常生活場景下生成了數據集 MemDaily。

MemDaily 數據評估

團隊對 MemDaily 數據進行了評估，其中包括用户畫像構建的質量，用户消息構造的質量和問答的質量。對於用户畫像，關注其合理性和多樣性；對於用户消息，側重於它的流暢性、合理性、自然性、信息性和多樣性；對於問答的質量，着重評估它對於文本答案、選擇答案和檢索目標的正確性。

記憶機制評測

基於 MemDaily，團隊對目前常用的幾種記憶機制進行了對比評測，並進一步融入了不同程度的噪聲，以擴展記憶文本的總量，從而提供不同難度的評測數據集。團隊對記憶的有效性和效率進行了評測。其中，記憶有效性的指標主要包括問答的準確率和檢索目標的召回率，記憶效率的指標主要包括調整時間和推理時間。實驗表明，不同模型的性能與問答類型和記憶文本的總量有關，因此，不同模型適用於不同類型的任務。值得提及的是，MemDaily 數據也支撐了華為鴻蒙系統級 AI 助手小藝的記憶相關特性的能力評測。

智能體記憶機制的評測榜單-MemBench

（ACL'25 Findings）

論文標題： MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
論文鏈接：https://arxiv.org/abs/2506.21605
代碼倉庫：https://github.com/import-myself/Membench

2025 年 2 月，在 MemSim 的基礎上，團隊進一步構建了智能體記憶機制的評測榜單。團隊同樣聚焦於智能助手場景，提出從觀測和參與兩個角度，對智能體的反思和事實兩種記憶類型進行評測，涵蓋了記憶的有效性、效率和容量評估。

多場景記憶視角

在參與場景中，智能體與用户進行互動，而在觀測場景中，智能體僅作為觀察者，記錄用户輸入的消息。在參與場景中，智能體執行其他模塊如推理動作模塊，從而和用户發生交互，並改變記憶模塊記憶的內容；在觀測場景中，智能體不會執行除了記憶之外的任何模塊，只接受用户單方面的信息輸入。

多層次記憶數據

團隊在 MemDaily 構建的事實記憶基礎上擴展了問答的類型，增加了例如知識更新等問答類型。同時，團隊新增了偏好和情感兩種記憶內容，分別評估智能體反思記憶能力。相較於用户向智能體直接表達出的事實記憶，反思記憶需要根據用户表達的低層次內容，從對話中提取並總結高層次的偏好，包括一些事實屬性。

多維度記憶評測

基於構建的數據集，論文從記憶的準確率、召回率、容量和效率對現有常見的多種記憶機制進行了評測。其中，團隊認為智能體的記憶機制可能存在容量限制，當記憶內容的量達到一定程度時，準確性會急劇下降，這一臨界值代表了記憶的容量。

智能體記憶機制的工具包-MemEngine

（TheWebConf'25 Resource, Oral/Top 10）

論文標題： MemEngine: A Unified and Modular Library for Developing Advanced Memory of LLM-based Agents
論文鏈接：https://dl.acm.org/doi/10.1145/3701716.3715299
代碼倉庫：https://github.com/nuster1128/MemEngine

2024 年 12 月，團隊實現了智能體記憶機制的早期工具包 MemEngine。近年來，雖然一些近期的工作提出了不同的智能體記憶機制，但它們缺少統一框架下的實現方案。

為此，團隊提出了統一的智能體記憶機制框架，並設計了模塊化的工具庫 MemEngine，用於便捷地實現和使用不同的智能體記憶機制。MemEngine 實現了近期研究中的記憶機制方法，設計了便捷開發與可擴展的模塊，並提供了豐富且用户友好的使用方式。

統一模塊化的記憶框架

團隊提出了一個統一模塊化的記憶框架，該框架包含三個層次：最底層為基礎的功能方法，如檢索、總結等；中間層為記憶操作，包含記憶的存儲、召回等；最高層為具體的記憶方法，如 MemoryBank、MemGPT 等。在框架中，高層的模塊可以組合複用低層模塊，從而提高實現效率。此外，MemEngine 還提供了配置模塊和工具模塊，輔助研究者和開發者進行探究和部署。

豐富的內置記憶方法

基於上述統一模塊化的記憶框架，團隊實現了 9 種近期研究工作中常用的記憶方法，如 MemoryBank，MemGPT 等。基於 MemEngine 的統一框架，這些方法之間可以無縫切換，從而更便捷地適配於具體應用。

便捷擴展的記憶開發

基於模塊化架構，研究者可通過三級擴展機制快速實現記憶方法的創新：在最底層擴展基礎功能，如可新增多模態編碼器；在中間層擴展記憶操作，如可實現不同的反思操作；在最高層基於現有模塊構建新型記憶模型。MemEngine 提供了完整開發文檔與代碼示例，支持從基礎功能定製到模型級創新的全流程開發。開發者可繼承基礎類實現個性化功能，或通過配置模塊快速驗證不同參數組合，顯著降低新記憶方法的實現門檻。

用户友好的記憶部署

MemEngine 提供本地與遠程雙部署模式：本地支持 pip 安裝與源碼集成，遠程可通過 API 調用記憶服務。提供默認、可配置、自動三種使用模式：默認模式開箱即用；配置模式支持動態調整提示詞等參數；自動模式可根據任務類型自動搜索記憶模型與參數組合。框架兼容 AutoGPT 等主流智能體平臺，滿足從學術研究到工業落地的多樣化需求。

人大高瓴-華為諾亞：大語言模型智能體記憶機制的系列研究

推薦文章

美股機會日報 | 凌晨3點！美聯儲將公佈1月貨幣政策會議紀要，納指期貨漲近0.5%；13F大曝光！巴菲特連續三季減持蘋果

美股機會日報 | 阿里發佈千問3.5！性能媲美Gemini 3；馬斯克稱Cybercab將於4月開始生產

港股周報 | 中國大模型「春節檔」打響！智譜周漲超138%；鉅虧超230億！美團周內重挫超10%

一周財經日曆 | 港美股迎「春節+總統日」雙假期！萬億零售巨頭沃爾瑪將發財報

從軟件到房地產，美國多板塊陷入AI恐慌拋售潮

Meta計劃為智能眼鏡添加人臉識別技術

危機四伏，市場卻似乎毫不在意

財報前瞻 | 英偉達Q4財報放榜在即！高盛、瑞銀預計將大超預期，兩大關鍵催化將帶來意外驚喜？