Memory in the Age of AI Agents: A Survey 解析

0 阅读29分钟

一、由一张图引入

首先论文中指明了当前Agent memory领域主要有什么研究方向,从下图可以看出,这个领域中研究方向很多,我们逐一拆解

一、 图的核心目的与价值

标题已点明核心:这是一张基于统一分类法绘制的智能体记忆概览图,该分类法包含:

  1. 形式(Forms):记忆以何种技术形式存在?(第3节)
  2. 功能(Functions):记忆在智能体中扮演什么角色?(第4节)
  3. 动态(Dynamics):记忆如何被操作、更新和演化?(第5节)

图的价值在于:它将数十个看似独立的AI智能体系统和记忆模块(如 G-Memory , Buffer-of-Thought , JARVIS-1 等)整合到一个统一的框架中,让研究者一眼就能看出某个系统“用哪种形式的记忆,主要解决什么问题”。

| --- | --- | | 令牌级/明文记忆 | 原始文本或令牌序列,未经深度编码。 | Context Condensation , REsum , Gist | | 参数记忆 | 知识被编码在神经网络模型的权重参数中。 | Model & Knowledge Editing (如 ROME , SERAC ) | | 潜在记忆 | 信息被编码在低维稠密向量(嵌入)或隐状态中。 | Vector Database , Latent Repository , AutoCompressor | | 体验记忆 | 对事件、交互序列的连贯记录,常具时空上下文。 | Experience , Memoro , Mem2Ego , Ego-LLaVA | | 工作记忆 | 当前任务相关的、被激活的短期信息。 | Working Memory , Short-term , Redis | | 长期记忆 | 持久化存储的海量知识库。 | Long-term , Agent KB , Knowledge Graph | | 加密记忆 | 基于区块链或分布式账本,实现不可篡改、可验证的记忆。 | Distributed ledger , Blockchain , Token-level Cryptographic Memory |

演进逻辑:从易失、具体的工作记忆,到持久、抽象的参数/长期记忆,形成了一个完整的记忆层次结构。

维度2:记忆的功能(Functions)—— “记忆用来做什么?”

这是图的纵向次要分类轴,描述了记忆在智能体中的应用场景和目标

功能类别核心目标代表模块
上下文管理压缩、筛选、组织当前对话或任务的上下文,以突破模型长度限制。Context Condensation , ContextFolding , SnapKV , PyramidKV
经验内化从过往的交互(成功或失败)中学习,形成可复用的策略或知识。Internalizing Experiences , Chain-of-Agent , RAGEN
知识提取与洞察从海量信息中主动发现模式、规律和新知识。Extract Insights , IterResearch
工具使用记忆记住如何调用API、使用工具,并记录其结果。ToolMem , ChemAgent , GUI Memory
世界模型构建形成对环境和物理/社会规律的内部表征。WorldM , KΛIST , VideoAgent
持续学习与适应在不遗忘旧知识的前提下,不断整合新信息。CoMEM , Continuous , Trainable

维度3:系统的映射(Systems Mapping)—— “谁用了哪种记忆?”

图的核心区域布满了具体的AI智能体系统或模块名称,它们被放置在其主要采用的记忆形式主要实现的记忆功能的交叉区域。

例如:

  • G-Memory **, ** Mem^p 被放在 潜在记忆(Latent Memory) 区域,并靠近 知识提取 功能。说明它们擅长用向量表征来存储和提取知识。
  • JARVIS-1 **, ** VideoAgent 被放在 体验记忆(Experiential Memory) 区域,并靠近 世界模型 功能。说明它们通过记忆事件序列来理解动态环境。
  • Buffer-of-Thought **, ** Dynamic Cheatsheet 被放在 工作记忆(Working Memory) 区域,功能是 上下文管理。说明它们专注于管理和优化当前任务的思考暂存区。

四、 总结:图揭示了什么趋势?

  1. 记忆是智能体的核心瓶颈与突破点:图表的复杂性直接反映了业界正在投入巨大精力解决“记忆”问题——如何让AI记得更多、更准、更智能。
  2. 从“单一记忆”到“混合记忆体系”:现代智能体不再依赖一种记忆形式,而是组合多种形式(如用向量数据库做快速检索 + 用知识图谱做深度推理 + 用参数编辑做知识更新),形成类似人类的记忆系统。
  3. 从“被动存储”到“主动管理”:记忆不再是简单的存和取,而是包含了动态压缩、总结、洞察、遗忘(Expel)和持续学习的主动过程。智能体正在学会“如何记住”以及“记住什么”。
  4. 跨模态与具身化: Ego-LLaVA , Mem2Ego , VideoAgent 等系统表明,记忆正从纯文本扩展到视觉、听觉、行动序列,为具身智能(如机器人、虚拟人)打下基础。

总而言之,这张图是AI智能体记忆技术的“地图”和“指南”。它告诉研究者:

  • 横轴(形式):你有哪些技术武器?(令牌、向量、参数、图...)
  • 纵轴(功能):你要解决什么问题?(管理上下文、积累经验、提取知识...)
  • 图中的点(系统):前人是怎么做的?我的工作可以填补哪个空白?

这为设计和评估新一代具有更强记忆能力的AI智能体提供了一个非常清晰、实用的理论框架。

二、主要的工作问题

三、 预备知识:形式化代理和记忆

3.1 Agent Memory Systems

当基于LLM的智能体与环境交互时,其瞬时观测值往往不足以进行有效决策。因此,Agent依赖从先前的交互中获得的额外信息,无论是当前任务内部还是在以前完成的任务之间。我们通过一个统一的代理记忆系统将这种能力形式化,表示为一个不断演化的记忆状态。

这种记忆系统没有施加特定的内部结构;它可以采用文本缓冲区、键值存储、向量数据库、图结构或任何混合表示的形式。在任务开始时,Mt可能已经包含了从先前轨迹中提取的信息(跨试次记忆)。在任务执行过程中,新的信息积累并作为短期的、任务特定的记忆发挥作用。这两种角色都在单一的记忆容器中得到支持,时间上的区别来自于使用模式,而不是架构上的分离。

3.2 记忆形成 - 演化 - 检索

智能体记忆不是一个静态仓库,而是一个**“形成-演化-检索”** 的动态循环系统。其核心要点如下:

1. 记忆形成(Formation)

  • 输入:智能体在每一步交互中产生的原始“信息工件”,如工具调用的结果、内部推理的步骤、计划的片段、自我评价或环境反馈。
  • 过程:通过一个 “形成操作符 F” 进行筛选和提炼。
  • 核心原则不是全盘记录历史,而是像一名经验丰富的编辑,主动提取那些对未来决策可能有用的精华信息,将其转化为“记忆候选”。

2. 记忆演化(Evolution)

  • 输入:上一步筛选出的“记忆候选”。
  • 过程:通过一个 “演化操作符 E” 将其整合到长期记忆中。
  • 关键操作:这是一个主动管理的过程,包括:合并相似或重复的记忆。解决新旧记忆间的矛盾。遗忘(丢弃) 价值不高的信息。重组结构以便未来能快速、准确地查找。
  • 结果:形成一个持续更新、结构清晰、去芜存菁的 “记忆基”

3. 记忆检索(Retrieval)

  • 时机:当智能体需要做出决策时。
  • 过程:根据当前的观察任务,通过 “检索操作符 R” 构建查询,从庞大的记忆库中动态提取最相关的片段。
  • 输出:生成一个格式化的 “记忆信号” ,直接作为提示的一部分输入给语言模型,从而用过去的经验指导当下的行动。

四、 将agent内存与其他关键概念进行比较

4.1 Agent Memory (代理记忆)

  • 是什么:智能体专属的记忆系统,负责记录、存储和利用自身的交互经验和内部状态
  • 怎么实现:图中展示了多种技术路径:
    • 自我演化记忆:如 Memento ,让记忆能根据新经验自动优化和成长。
    • 多模态记忆:如 Ella ,能存储和处理图像、视频等多感官信息。
    • 潜在/参数记忆:将经验编码为模型内部的向量或直接调整模型参数。
    • 强化学习赋能记忆:如 MemAgent ,用RL策略来优化记忆的存储和检索。
  • 关键模块: Memory Graph (记忆图谱,如 Zep )、 Agentic Memory (代理记忆,如 G-Memory )、 Working Memory (工作记忆,如 HiAgent )。

4.2 LLM Memory (大语言模型记忆)

  • 是什么挖掘和优化大模型自身固有的记忆与推理能力,不依赖外部工具。
  • 怎么实现
    • 提示工程:如 CoT (思维链),引导模型展示推理过程。
    • 自我反思:如 CRITIC ,让模型自我检查、发现并修正错误。
    • 技术优化:如 KV压缩 、 长上下文模型 (如 Mamba ),直接扩展模型“记得住”的内容量。

4.3 RAG (检索增强生成)

  • 是什么:通过从外部知识库(如文档、数据库)中实时检索相关信息,来增强大模型的回答,保证事实准确性。
  • 怎么实现
    • 模块化RAG:将检索、生成等步骤拆分成可替换的模块。
    • 图RAG:利用知识图谱进行更复杂的语义检索。
    • 智能体RAG:如 Self-RAG ,让模型自己判断何时需要检索、检索结果是否相关。

4.4 Context Engineering (上下文工程)

  • 是什么管理与外部世界的交互接口和协议,让智能体能有效地使用工具、进行通信。
  • 怎么实现
    • 工具集成推理:如 ToolLLM ,学习如何规划和调用各种API工具。
    • 工具选择:面对多个工具时,能智能选择最合适的一个。
    • 通信协议:如 Agora ,定义智能体之间如何交换信息和协作。

五、 记忆存在形式

在不同的Agent系统中,记忆并不是通过单一的、统一的结构来实现的。相反,不同的任务设置需要不同的存储形式,每种存储形式都有自己的结构属性。这些架构赋予了记忆不同的能力,塑造了智能体如何通过交互积累信息并保持行为一致性。它们最终使记忆能够在不同的任务场景中完成其预定的角色。

5.1 Token-level Memory

Token级记忆:以离散、外部可访问的单元(如文本块、向量、图节点)存储信息。这是最常见的形式,可进一步按组织结构分为:

  • 扁平记忆:无显式结构(如序列、集合)。
  • 平面记忆:单层结构(如图、树、表)。

平面记忆( Planar Memory )引入了记忆单元之间的显式组织拓扑,但仅限于单个结构层内,简称为2D。拓扑可能是图、树、表、隐式连接结构等,其中邻接、父子序或语义分组等关系编码在一个平面内,没有层次或跨层引用。

  • 分层记忆:多层互连的复杂结构。

5.2 Parametric Memory

参数记忆:信息编码在模型参数内部,通过前向计算隐式访问。

参数记忆的两种主要类型

1 .内部参数记忆:在模型( e.g. ,权重,偏差)的原始参数内编码的记忆。这些方法直接对基模型进行调整,以纳入新的知识或行为。

2 .外部参数存储器:存储在额外或辅助参数集合中的存储器,如适配器、LoRA模块或轻量级代理模型。这些方法在不修改原有模型权重的前提下,引入新的参数进行记忆。

5.3 Latent Memory

潜在记忆:信息存在于模型的内部隐藏状态或连续的潜在表示中,在推理过程中持续和演化。

LLM代理中的潜在内存集成概述。与显式文本存储不同,潜在记忆在模型的内部表征空间进行操作。该框架根据隐状态的来源进行分类:

( a )生成,其中辅助模型合成嵌入,以干扰或增强LLM的前向传递;

( b )重复使用,它直接传播先验计算状态,如KV缓存或中间嵌入;

( c ) Transform,它通过令牌选择、合并或投影来压缩内部状态,以保持有效的上下文。

六、Why Agent Need Memory?

根据定义,智能体必须随着时间的推移而持续、适应和一致地交互。实现这一点不仅依赖于一个大的语境窗口,而且从根本上取决于记忆的容量。

三个主要记忆功能

1 .Factual Memory 事实记忆:智能体的陈述性知识基础,通过回忆明确的事实、用户偏好和环境状态来确保一致性、连贯性和适应性。这个系统回答了"智能体知道什么"的问题。

2 .Exp Memory 经验记忆:行动者的程序性和策略性知识,通过从过去的轨迹、失败和成功中抽象出来而积累起来,以使其能够持续学习和自我进化。这个系统回答:"智能体如何改进"

3 .Working Memory 工作记忆:智能体的容量限制,动态控制的画板,用于在单个任务或会话期间进行主动的上下文管理。这个系统回答:'智能体现在在想什么'

6.1 第一部分:长期记忆 Long-term Memory

这部分是智能体持久化的“大脑皮层”,存储着长期、稳定的信息。它被分为两大类:

  1. 事实记忆

存储关于世界和用户的客观事实。

  • 用户事实记忆:记住用户的个人信息、偏好等(如用户说“我对花生过敏”)。
  • 对话一致性:确保在长对话中,智能体对之前说过的话、用户提过的要求保持一致,不自相矛盾。代表工具:MemoryBank, TiM。
  • 目标一致性:记住用户的终极目标,在执行多步骤任务时不跑偏。代表工具:A-Mem, H-Mem。
  • 知识持久化与共享:将学到的通用知识(如常识、专业知识)固化下来,并能在不同任务或智能体间共享。代表工具:HippoRAG, G-Memory。
  1. 经验记忆

存储智能体亲身实践过的行动和思考过程,类似于人类的“阅历”。

  • 基于案例的:记住过去成功或失败的完整任务实例
  • 解决方案:存储具体问题的解决方法和答案。代表工具:MapCoder。
  • 行动轨迹:记录完成任务的一系列具体步骤(思考→行动→结果)。代表工具:Momento, JARVIS-1。
  • 基于策略的:从大量案例中提炼出的通用规律和方法论。
  • 洞察与推理:抽象出的推理模式和深度洞察。代表工具:Reasoning-Bank。
  • 工作流程:完成某类任务的标准操作程序。代表工具:AgentKB。
  • 模式:可复用的解决方案模板。代表工具:Buffer-of-Thought。
  • 基于技能的:掌握的具体操作能力,尤其是使用外部工具的能力。
  • 函数工具:封装好的可调用函数。代表工具:SkillWeaver。
  • 代码库:编写和执行代码的能力。代表工具:Voyager。
  • API协议:理解和调用各种应用程序接口的规则。代表工具:Gorilla。

6.2 第二部分:工作记忆 Short-term memory

这部分相当于智能体的“桌面”或“思维缓存”,处理当前任务相关的即时信息。它容量有限,但高度活跃和动态。

  • 单轮交互处理:处理当前这一步的输入。
  • 输入浓缩:在信息过长时,智能地压缩或提取关键信息,以节省有限的上下文窗口。代表工具:LongLLMLingua。
  • 观察抽象化:将看到的原始数据(如一段视频描述)转化为高层次的理解。代表工具:VideoAgent。
  • 多轮交互处理:管理与整合跨越多个步骤的思维状态。
  • 状态合并:将分散在多轮对话中的信息整合成一个连贯的上下文。代表工具:Mem1, ReSum。
  • 层级折叠:将复杂的、长篇的思维过程分层折叠,保持主干清晰。代表工具:Agent-Fold。
  • 认知规划:在行动前进行内部推演和步骤规划。代表工具:PRIME, SayPlan

七、动态:记忆是如何运作和演化的

前几节介绍了记忆的架构形式(第3节)和功能角色(第4节),勾勒出一个相对静态的主体记忆概念框架。然而,这种静态的观点忽略了根本上表征施事记忆的内在动态性。与静态编码在模型参数或固定数据库中的知识不同,代理记忆系统可以动态地构建和更新其记忆库,并根据不同的查询执行定制的检索。

记忆系统中的三个基本过程

1 . MemoryForformation:这个过程着重于将原始经验转化为信息密集的知识。记忆系统不是被动地记录所有的交互历史,而是有选择地识别具有长期效用的信息,如成功的推理模式或环境约束。这一部分回答了"如何提取记忆"的问题。

2 . Memory Evolution:这个过程代表了记忆系统的动态演化。它注重将新形成的记忆与已有的记忆基础进行整合。 该系统通过相关词条的合并、冲突解决、自适应剪枝等机制,保证了记忆在不断变化的环境中保持可泛化、连贯和高效。这一部分回答了"如何提炼记忆"的问题。

3 .内存检索:这个过程决定了检索到的内存的质量。在上下文的条件下,系统构建了一个任务感知的查询,并使用精心设计的检索策略来访问相应的内存库。因此,提取的记忆对推理既是语义相关的,也是功能关键的。这一部分回答了"如何利用记忆"的问题。

7.1 三大核心模块:记忆系统的完整生命周期

智能体的“智能”主要体现在它能利用过去、指导现在、优化未来。这三个模块共同构成了一个完整的“学习-记忆”闭环。

  • 模块1:记忆构建——从经验中提炼智慧

目的:不是简单地记录所有聊天记录,而是像人类做笔记一样,从原始交互数据中提炼出有价值、可复用的“知识单元”。

输入(a):原始对话、工具输出、任务结果等。

处理过程:

  1. 语义总结:将冗长的文本浓缩为要点。
  2. 结构化构建:将信息整理成清晰的格式(如谁、何时、做了什么、结果如何)。
  3. 知识蒸馏:从具体案例中提取通用规律。
  4. 潜在表征 / 参数内化:将知识编码为向量或调整模型自身的参数。

输出(b):结构化的、语义清晰的 “新记忆单元”。

Summary Semantic summarization operates as a lossy compression mechanism, aiming to distill the gist from lengthy interaction logs. Unlike verbatim storage, it prioritizes global semantic coherence over local factual precision, transforming linear streams into compact narrative blocks. The primary strength of semantic summarization is efficiency: it drastically reduces context length, making it ideal for long-term dialogue. However, the trade-off is resolution loss: specific details or subtle cues may be smoothed out, limiting their utility in evidence-critical tasks.

7.1.1 增量式摘要

该范式采用时间整合机制,不断将新观察到的信息与已有的摘要进行融合,产生了一种不断演化的全局语义表示。

7.1.2 分区摘要

该范式采用空间分解机制,将信息划分为不同的语义分区,并为每个分区生成单独的摘要。早期的研究通常采用启发式的划分策略来处理长语境。

Summary:The main advantage of structured construction is explainability and the ability to handle complex relational queries. Such methods capture intricate semantic and hierarchical relationships between memory elements, support reasoning over multi-step dependencies, and facilitate integration with symbolic or graph-based reasoning frameworks. However, the downside is schema rigidity: pre-defined structures may fail to represent nuanced or ambiguous information, and the extraction and maintenance costs are typically high.

7.1.5 实体层次的结构化

该范式的基础结构来源于关系三元组抽取,它将原始上下文分解为其最细粒度的语义原子实体和关系。传统方法将记忆建模为平面知识图谱。

7.1.6 分块层次的结构化

该范式将连续的文本跨度或离散的记忆项作为节点,在保持局部语义完整性的同时将其组织成拓扑结构。该领域的发展经历了从静态的、平面的( 2D )从固定语料中提取,到动态地适应新的轨迹,最终发展到分层的( 3D )架构。

Summary:Parametric internalization represents the ultimate consolidation of memory, where external knowledge is fused into the model’s weights via gradients. This shifts the paradigm from retrieving information 54 to possessing capability, mimicking biological long-term potentiation. As knowledge becomes effectively instinctive, access is zero-latency, enabling the model to respond immediately without querying external memory. However, this approach faces several challenges, including catastrophic forgetting and high update costs. Unlike external memory, parameterized internalization is difficult to modify or remove precisely without unintended side effects, limiting flexibility and adaptability.

7.1.10 知识内化

这一策略需要将外部存储的事实记忆,如概念定义或领域知识,转换到模型的参数空间中。通过这个过程,模型可以直接回忆和利用这些事实,而不需要依赖显式检索或外部记忆模块。

7.1.11

能力内化这一策略旨在将经验知识,如程序性专业知识或战略启发式知识,嵌入到模型的参数空间中。该范式代表了一种广义上的记忆形成操作,从事实性知识的获得转向经验能力的内化。具体来说,这些能力包括特定领域的解决方案模式、战略规划以及Agent技能的有效部署等。从技术上讲,能力内化是通过从推理轨迹中学习,通过有监督的微调( Wei et al , 2022 ; Zelikman et al , 2022 ; Schick et al , 2023 ;慕克吉et al , 2023)或偏好引导的优化方法,如DPO (拉斐洛夫等)来实现的 2023年;滕斯托尔et al,2023;Yuan et al .,2024c;Grattafiori et al,2024 )和GRPO (邵敏等, 2024 ; DeepSeek-AI et al , 2025)。作为将外部RAG与参数化训练相融合的尝试,Memory Decoder ( Cao et al , 2025a)是一种即插即用的方法,它不像外部RAG那样修改基模型,同时通过消除外部检索开销来实现参数内化的推理速度。这种即插即用的参数化记忆可能具有广泛的潜力。

  • 模块2:记忆进化——知识库的自我优化

目的:管理记忆库,使其像一个不断成长的智库,而不是一个杂乱无章的仓库。通过整合、去重、更新,确保知识的质量和可用性。

输入(g):从模块1来的新记忆单元。

处理过程:

  1. 整合:将新知识与库中已有的相关知识联系起来。
  2. 巩固:合并重复或高度相似的知识点,形成更强大的记忆痕迹。
  3. 更新:用更准确、更新的信息覆盖旧有或错误的知识。
  4. 输出:更新后的、结构更优的 “记忆库”。

记忆进化的三种机制

7.2.1 记忆整合

Consolidation is the cognitive process of reorganizing fragmented short-term traces into coherent long-term schemas. It moves beyond simple storage to synthesize connections between isolated entries, forming a structured worldview. It enhances generalization and reduces storage redundancy. However, it risks information smoothing, where outlier events or unique exceptions are lost during the abstraction process, potentially reducing the agent’s sensitivity to anomalies and specific events.

将新的和已有的记忆进行融合,进行反思性整合,形成更一般化的洞见。这确保了学习是累积的而不是孤立的。

  • 局部合并: 这项操作侧重于涉及高度相似的内存片段的细粒度更新。在RMM ( Tan et al , 2025c)中,每一个新的主题存储器检索它的前K个最相似的候选,LLM决定合并是否合适,从而减少错误泛化的风险。
  • 簇级融合: 采用簇级融合对于捕捉随着内存增长的跨实例规律是必不可少的。在跨集群中,PREMem ( Kim et al . , 2025b)将新的记忆集群与相似的现有记忆集群对齐,并采用泛化、精化等融合模式形成高阶推理单元,显著提高了可解释性和推理深度。
  • 全局整合:这项操作进行整体整合,以保持全球一致性,并从积累的经验中提取系统级的见解。语义摘要侧重于从现有的上下文中推导出一个全局的摘要,可以看作是摘要的初始构建。In contrast, this paragraph emphasizes how new information is integrated into an existing summary as additional data arrives.

7.2.2 内存更新

Summary:From an implementation standpoint, memory updating focuses on resolving conflicts and revising knowledge triggered by the arrival of new memories, whereas memory consolidation emphasizes the integration and abstraction of new and existing knowledge. The two memory updating strategies discussed above establish a dual-pathway mechanism involving conflict resolution in external databases and parameter editing within the model, enabling agents to perform continuous self-correction and support long-term evolution. The key challenge is the stability–plasticity dilemma: determining when to overwrite existing knowledge versus when to treat new information as noise. Incorrect updates can overwrite critical information, leading to knowledge degradation and faulty reasoning.

解决了新的和现有内存之间的冲突,纠正和补充了存储库,以保持准确性和相关性。它允许代理适应环境或任务需求的变化。

  • 外部记忆更新:当出现矛盾或新的事实时,对向量数据库或知识图谱中的条目进行修改。该方法不改变模型权重,而是通过外部存储的动态修改来保持事实一致性。静态记忆不可避免地会积累过时或冲突的条目,导致逻辑不一致和推理错误。更新外部存储器可以实现轻量级的修正,同时避免了完全重新训练或重新索引的成本。
  • 模型编辑:模型编辑在模型的参数空间内进行直接修改,以修正或注入知识,而不需要进行充分的再训练,代表隐式的知识更新。再训练代价高昂且容易发生灾难性遗忘。模型编辑可以实现精确的、低成本的校正,从而增强适应性和内部知识保留。

7.2.3 内存遗忘

Summary Time-based decay reflects the natural temporal fading of memory, frequency-based forgetting ensures efficient access to frequently used memories, and importance-driven forgetting introduces semantic discernment. These three forgetting mechanisms jointly govern how agentic memory remains timely, efficiently accessible, and semantically relevant. However, heuristic forgetting mechanisms like LRU may eliminate long-tail knowledge, which is seldom accessed but essential for correct decision-making. Therefore, when storage cost is not a critical constraint, many memory systems avoid directly deleting certain memories.

删除过时或冗余的信息,释放容量,提高效率。这样可以防止由于知识过载而导致的性能下降,并确保内存存储库仍然专注于可操作的和当前的知识。

  • 基于时间的遗忘:时间驱动的遗忘只考虑记忆的产生时间,随着时间的推移逐渐衰减记忆的强度,以模拟人类记忆的衰退。
  • 基于频率的遗忘:频率驱动的遗忘根据提取行为对记忆进行优先排序,保留频繁访问的条目,而丢弃不活跃的条目。
  • 重要性驱动的遗忘:重要性驱动的遗忘整合了时间、频率和语义信号,在修剪冗余的同时保留高价值知识。

基于时间的衰减反映了记忆的自然时间衰减,基于频率的遗忘保证了对经常使用的记忆的有效访问,而重要性驱动的遗忘引入了语义辨别。这三种遗忘机制共同决定了施事记忆如何保持及时、有效和语义相关。然而,LRU等启发式遗忘机制可能会消除长尾知识,而这些知识很少被访问,但对于正确决策至关重要。因此,当存储开销不是一个关键的限制条件时,许多存储系统避免直接删除某些内存。

  • 模块3:记忆检索——在正确的时间获取正确的知识

目的:当智能体面对新任务时,它能主动、精准地从庞大的记忆库中召回最相关的经验来辅助决策。

  1. 输入(c):由Agent Backbone根据当前任务和环境生成的检索查询。
  2. 处理过程:
  3. 判断时机与位置:决定何时、从记忆库的哪个部分进行检索。
  4. 生成检索策略:决定“如何检索”,比如是基于语义相似度、任务类型还是时间顺序。
  5. 输出(d):一组与当前问题高度相关的记忆片段,这些片段会被送给Agent Backbone作为思考的上下文。

7.3.1 检索时机和检索意图

Summary: Autonomous timing and intent help reduce computational overhead and suppress unnecessary noise, but they also create a potential vulnerability. When an agent overestimates its internal knowledge and fails to initiate retrieval when needed, the system can fall into a silent failure mode in which knowledge gaps may lead to hallucinated outputs. Therefore, a balance needs to be achieved: providing the agent with essential information at the right moments while avoiding excessive retrieval that introduces noise.

自动检索时机这一术语是指模型在推理过程中自主决定何时触发记忆检索操作的能力。最简单的策略是将决策委托给LLM或外部控制器,允许其仅从查询中确定是否需要检索。自动检索意图这一方面涉及模型自主决定在一个层次的存储形式中访问哪个内存源的能力。

7.3.2 查询信号

These two paradigms, decomposition and rewriting, are not mutually exclusive. Auto-RAG (Kim et al., 2024a) integrates both by evaluating HyDE and Visconde under identical retrieval conditions and then selecting the strategy that performs best for the given task. The findings of this work demonstrate that the quality of the memory-retrieval query has a substantial impact on reasoning performance. In contrast to earlier research, which primarily focused on designing sophisticated memory architectures, recent studies (Yan et al., 2025b) place increasing emphasis on the retrieval construction process, shifting the role of memory toward serving retrieval. The choice of what to retrieve with is, unsurprisingly, a critical component of this process.

  • 查询分解:这种方法将复杂的查询分解成更简单的子查询,使得系统能够检索到更细粒度和更相关的信息。这种分解通过对中间结果进行模块化检索和推理,缓解了一次性检索的瓶颈。
  • 查询重写策略:不是分解,而是在检索之前重写原始查询或生成假设文档以细化其语义。这样的重写减轻了用户意图和内存索引之间的不匹配。

7.3.3 检索策略

  • 词汇检索:该策略依靠关键词匹配来定位相关文档,具有代表性的方法包括TF - IDF ( SPARCK JONES , 1972)和BM25 (罗伯特森和扎拉戈萨, 2009)。
  • 语义检索:该策略将查询和记忆条目编码到一个共享的嵌入空间中,并基于语义相似性而不是词汇重叠进行匹配。
  • 图检索:这种策略不仅利用了语义信号,还利用了图的显式拓扑结构,从而实现了本质上更精确和结构感知的检索。通过直接访问结构路径,这些方法表现出更强的多跳推理能力,能够更有效地探索长程依赖关系。此外,将关系结构作为推理路径的约束,自然支持由精确规则和符号约束控制的检索。
  • 生成式检索:该策略用直接生成相关文档标识符( Tay et al , 2022 ; Wang et al , 2022b)的模型来代替词汇或语义检索。通过将检索作为条件生成任务,模型将候选文档隐式地存储在其参数中,并在解码( Li et al , 2025k)的过程中执行深度查询-文档交互。
  • 混合检索:这种策略综合了多种检索范式的长处。Agent KB ( Tang et al , 2025d)和MIRIX (王永进、陈晓, 2025)等系统将词汇和语义检索相结合,以平衡精确的术语或工具匹配和更广泛的语义对齐。通过融合异构检索信号,混合方法在保留关键词匹配精度的同时融入语义方法的上下文理解,最终得到更加全面和相关的结果。

7.3.4 检索后处理

初始检索通常返回冗余的、有噪声的或语义不一致的片段。直接将这些结果注入提示中,会导致上下文过长、信息冲突、推理被无关内容干扰等问题。因此,检索后的处理对于确保及时的质量至关重要。它的目标是将检索到的结果提取到一个简洁、准确、语义连贯的上下文中。在实际应用中,有两个组成部分是核心的:

( 1 )重排序和过滤:执行细粒度的相关性估计,以删除不相关或过时的记忆,并对剩余的片段进行重新排序,从而减少噪声和冗余。

( 2 )聚合与压缩:将检索到的内存与原始查询进行整合,消除重复,合并语义相似的信息,重建紧凑连贯的最终上下文。

八、附录

大家感兴趣可以去看看原论文噢:arxiv.org/pdf/2512.13…

这篇综述的代码仓库链接:github.com/Shichun-Liu…

点我查看更多精彩内容:www.flydean.com