让 AI Agent 越用越聪明:记忆机制的三阶段演进

7 阅读14分钟

基于 ACL 2026 录用论文 From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms。 本文是论文笔记 + 我自己作为研究者的一些观察。反馈欢迎评论区拍砖。


引子:为什么 Agent 必须有记忆

大模型推理时不更新权重,这是当前 LLM 架构的根本约束。模型训练完成后,它的「知识」就被冻结了 —— 用户在某次对话里教它的东西,下一次对话开始就忘了。

但用户对 AI 的期待恰恰相反:他们期待 AI 越用越懂自己、越用越聪明。这之间的 gap,就是当前所有 AI Agent 系统都在试图填的坑。

填这个坑的工程方案叫「记忆机制」。把用户的交互信息存下来、整理出来、复用起来 —— 让模型权重不变,但 Agent 的整体表现像在持续学习。

这篇 ACL 2026 录用的综述论文,把学术界过去三年所有 AI 记忆方法做了一次完整梳理,分成三个递进阶段。读完后我的感受是:这不是一个「小优化」领域,而是 LLM 工程落地最有杠杆的方向之一

本文会展开:

  • 三阶段模型的核心思想
  • 每个阶段的代表性方法和优劣
  • 推动这个领域演进的三个驱动力
  • 我自己作为工程师对落地难度的判断
  • 给想动手的开发者的具体建议

一、三阶段模型概览

论文给的核心框架,可以用一张表概括:

阶段学术名类比代表方法
1存储 (Storage)原始记事本对话历史、KV cache、向量数据库
2反思 (Reflection)学习笔记Self-reflection、Generative Agents
3经验 (Experience)老司机CASCADE、Case-based reasoning

这三个阶段不是相互排斥的,而是递进的 —— 后一个阶段建立在前一个之上。一个成熟的 Agent 系统,往往三层都有。

为什么是这三个阶段?我的理解是:信息密度在不断提高

  • 存储阶段:信息密度低,1 比 1 保留原始数据
  • 反思阶段:信息密度中等,N 条原始数据 → 1 条总结
  • 经验阶段:信息密度高,N 类原始情境 → 1 条抽象规则

随着信息密度提高,单位 token 的价值密度也在提高 —— 这是为什么经验阶段能用很少的上下文做出很准的判断。

下面分别展开。


二、存储阶段:原始信息的物理保留

存储阶段是最原始也最直观的:把信息留下来,等需要时再取

2.1 简单存储:对话历史

最朴素的方法:把所有对话历史拼到 prompt 里。

[system prompt]
[user: 第一条消息]
[assistant: 第一条回复]
[user: 第二条消息]
...
[user: 当前问题]

实现简单,但天花板很低 —— 上下文窗口的物理限制(即使是当前最大的窗口也只有几十万 token)让这个方法只能撑住几小时到几天的对话。

2.2 滑窗与衰减:sliding window + decay

为了在有限窗口里塞下更多信息,引入「滑窗」和「衰减」机制:

  • 滑窗:只保留最近 N 条对话
  • 衰减:越久远的信息越简略保留

工程上常用的实现:保留最近 K 条完整对话 + 之前每 5 条压缩成 1 条总结 + 更久之前的只保留关键实体。

2.3 向量化检索:external memory

真正让「存储」突破窗口限制的,是把记忆外置

1. 用户消息进来,先存进向量数据库
2. 每次回答前,检索相似的历史片段
3. 把检索结果作为额外上下文塞进 prompt

代表实现:MemGPT、各类 ConversationBufferMemory 实现。

向量化检索解决了「信息太多放不下」的问题,但也带来新问题:检索的相关性如何保证? 用户在第 100 条对话时问的问题,可能跟第 5 条对话有关,但向量相似度可能很低。

2.4 存储阶段的根本局限

这个阶段最大的问题是:信息密度低 + 噪声多

100 条对话里真正有价值的可能只有 5 条。存储阶段不区分价值,全存。这导致:

  1. 检索精度差:相关的可能没召回,无关的可能召回了
  2. token 浪费:召回的 10 条里 9 条是噪声
  3. 不可演化:信息进去什么样就什么样,不会变得更有用

要解决这些问题,就要进入下一阶段。


三、反思阶段:信息的主动提炼

反思阶段的核心思想:让 Agent 自己回顾过去的对话,提炼出有价值的总结

3.1 Self-Reflection 系列

学术界最早系统化反思机制的是 Self-Reflection 系列工作。核心循环:

做事 → 检查结果 → 写一段反思 → 把反思加入记忆

例如做完一道数学题后,Agent 写一段:

这道题我用了换元法,关键在于看出 x²+1 可以做整体代换。这类题以后看到平方+常数项的形式可以优先尝试换元。

这段反思比 100 条原始计算步骤更有价值 —— 它把「具体经验」抽象成「可复用模式」。

3.2 Generative Agents 的层次化反思

斯坦福那篇 Generative Agents 论文(让 25 个 AI 在虚拟小镇里生活)把反思机制做到了一个新高度:

  • 每次行动后:写一条 observation
  • 每天结束时:把当天的 observation 提炼成几条 reflection
  • 每周/每月:把 reflection 进一步提炼成 generalization

这是个层次化的反思结构。每一层的信息密度都比下一层高一个量级。

实际效果:被反思过的 Agent 表现明显优于只用原始对话历史的 Agent,但 token 消耗反而更少 —— 因为高层的 reflection 占用空间小但信息密度高。

3.3 反思的设计陷阱

不是所有反思都有效。我在自己的项目里试过几种反思机制,踩过几个坑:

陷阱 1:反思频率过高

让 Agent 每次回答完都做一次反思,结果反思本身消耗的 token 比省下来的还多。

修正:只在重要节点反思(任务完成、用户给出明确反馈、跨会话结束)。

陷阱 2:反思内容过于具体

Agent 把反思写成了「我在 2024-05-12 给张三推荐了红色衣服」。这种反思跟原始记录差不多,没有泛化价值。

修正:在 reflection prompt 里强制要求「提炼可复用规律」,而不是复述事实。

陷阱 3:反思的偏差累积

Agent 自己生成的反思可能本身就有偏差(比如错误归因)。这些偏差会在后续被反复引用,形成「偏差累积」。

修正:定期用更强的模型或人工审查 reflection,剔除明显错误的。

3.4 反思阶段的根本局限

反思解决了「信息密度」问题,但还没解决「跨场景复用」问题。

具体来说:Agent A 在客服场景下反思出「用户问退款时应该先共情」,能不能直接用到 Agent B 在技术支持场景下?

答案是:不一定。反思往往带场景标签,跨场景效果差。

要解决这个问题,需要进入下一阶段。


四、经验阶段:跨场景的抽象规则

经验阶段是整个三阶段模型最难、也最具想象空间的部分。核心思想:从一类场景的反思中,抽象出与场景无关的通用规则

4.1 CASCADE 算法

CASCADE(Case-Based Continual Adaptation)是论文里被反复引用的代表性方法。核心循环:

遇到新问题 → 在经验库里检索相似案例 → 参考案例策略产出答案 → 验证答案 → 如有效则把「问题+策略」对存入经验库

跟反思阶段的区别:

  • 反思阶段存的是「具体场景的总结」
  • 经验阶段存的是「问题模式 → 策略模式」的映射

CASCADE 在 16 类任务上做了实验(医疗、法律文书、编码、网页操作、机器人控制等),平均成功率提升 20.9%。关键是没有重新训练模型权重 —— 全靠外部经验库。

更厉害的是,论文证明了 CASCADE 有「no-regret guarantee」 —— 数学上保证经验积累不会让 Agent 越用越差。

4.2 Case-Based Reasoning 的复活

老 AI 圈的朋友可能眼熟 —— Case-Based Reasoning(CBR)其实是 1980 年代就提出的方法。当时因为案例库构建难、检索算法弱而被冷落。

LLM 时代 CBR 复活了,原因有三:

  1. 检索能力质变:向量化检索让「相似案例」的判断从规则匹配变成语义匹配
  2. 案例库可自建:以前需要专家手工标注,现在 Agent 可以自动从交互中提取
  3. 泛化能力强:LLM 能从一个案例的策略推广到相似但不同的问题

所以经验阶段并不是「创造了新东西」,而是用 LLM 的能力重新激活了一类被冷落的方法

4.3 经验冲突的处理

经验阶段最难的问题:当两条经验冲突时怎么办?

例如:

  • 经验 A:用户问价格问题时应该先报价
  • 经验 B:用户问价格问题时应该先了解需求

这两条都是 Agent 在不同场景下抽象出来的,单看都正确。但放到一起就互相冲突。

学术界目前有几种处理思路:

  1. 优先级机制:根据经验的「成功率」打分,高分优先
  2. 场景标签:给每条经验加上限制场景标签,检索时只用匹配场景的
  3. 元经验:训练 Agent 学会判断「什么时候用 A、什么时候用 B」

这个方向还在快速发展,没有公认的最佳方案。

4.4 经验阶段的真正瓶颈

经验阶段最大的瓶颈不是算法,而是评估

  • 存储和反思阶段,效果好不好相对容易评估(看 token 节省、看对话连贯性)
  • 经验阶段的效果体现在「长期表现」 —— 需要让 Agent 跑几周甚至几个月才能看出差异

这给学术研究和工程落地都带来了挑战:实验周期长、对比成本高。


五、推动这个领域演进的三个驱动力

论文提到三个驱动力,我想展开聊一下:

5.1 长期一致性

用户对 Agent 最基础的期待之一:今天说 A、明天不能说 B

这个看似简单的需求,没有记忆机制根本做不到。因为每次推理 LLM 都是「从零开始」的状态。

记忆机制让 Agent 能「记住自己说过什么、做过什么决定」,从而维持长期一致性。

5.2 动态环境适应

世界在变。两年前的政策、一年前的产品版本、上个月的价格 —— 这些信息模型训练时无法预知。

记忆机制让 Agent 能在不重新训练的前提下适应环境变化 —— 把最新信息存到记忆库里就够了。

这点对工程落地特别重要:传统机器学习模型每次环境变化都要重训,成本巨大;记忆机制把「适应成本」从训练侧转移到了数据侧

5.3 持续学习

这是终极目标:越用越聪明

学术界长期追求「持续学习」的理想 —— 让一个系统在使用中不断变强,而不是被训练完就定型。记忆机制是当前 LLM 架构下最接近这个理想的实现。


六、当前技术瓶颈

讲了这么多积极面,也得讲讲让人沮丧的部分。

6.1 评估难

前面提过,记忆机制的效果需要长期评估,但学术界没有标准化的 benchmark。每个论文都用自己的实验设计,结果难以横向比较。

这导致一个奇怪的现象:很多「新方法」声称比 baseline 好 20%,但换个数据集可能就败给 baseline。

6.2 反思的偏差

Agent 自己生成的反思可能是错的。错误的反思会被存入记忆库,然后影响后续判断。

更糟的是:错误的反思往往听起来很合理,连人工审查都难发现。

6.3 经验冲突

前面提过的经验冲突问题,目前没有公认的最佳解决方案。

6.4 隐私与安全

记忆机制本质是把用户交互信息存下来。这带来明显的隐私问题:

  • 谁能访问这些记忆?
  • 用户能删除自己的记忆吗?
  • 如果 Agent 服务于多个用户,记忆怎么隔离?

学术论文里这部分讨论很少,但工程落地必须解决。


七、给工程师的实用建议

如果你是工程师,正在考虑给自己的 Agent 加记忆机制,几个建议:

7.1 从存储开始,逐步升级

不要一上来就做经验阶段的复杂系统。先把基础存储做扎实:

Step 1: 对话历史 + sliding window
Step 2: 向量化存储 + 检索
Step 3: 简单 reflection(每天/每会话总结一次)
Step 4: 多层级 reflection(仿照 Generative Agents)
Step 5: 经验抽象(CASCADE 思路)

每步至少跑两周,看效果再决定要不要进下一步。

7.2 反思 prompt 的设计

反思 prompt 的设计直接决定反思质量。我自己常用的几个原则:

  1. 强制泛化:要求反思输出可复用模式,禁止复述事实
  2. 限定字数:每条反思 200 字以内,强制压缩
  3. 多角度:不只反思「成功的」,也反思「失败的」
  4. 可质疑:让 Agent 标注自己反思的置信度

7.3 不要陷入「反思无限循环」

让 Agent 反思反思自己的反思,听起来很妙,实际上是 token 黑洞。

设个明确的层级上限:最多 3 层反思(原始 → reflection → meta-reflection),不要再往上。

7.4 早做评估机制

记忆机制最坑的就是「看起来工作了实际没用」。

至少要设计两个评估指标:

  1. 任务成功率(结果指标)
  2. token 效率(成本指标)

跑 A/B:一组带记忆机制,一组不带。两周后看数据。


八、未来方向:跨智能体记忆共享

论文末尾留下一个 open question:多个 Agent 之间能不能共享记忆?

想象一下:客服 Agent A 学到「用户问 X 时这样回答」,能不能直接同步给客服 Agent B、C、D,让所有同岗位 Agent 一起变聪明?

技术上有几个挑战:

  1. 场景对齐:Agent A 的场景和 Agent B 的场景不完全一样
  2. 质量验证:A 的经验对 B 来说是否仍然有效?
  3. 冲突解决:A、B、C 的经验冲突时听谁的?

如果这些问题能解决,意味着 Agent 生态可以集体进化。这是个真正激动人心的方向。


九、写在最后

记忆机制是当前 LLM 工程落地最有杠杆的方向之一。不重训模型、靠工程方案就能让 Agent 越用越好 —— 这个性价比是其他方向比不了的。

但也是个深水区。论文里讲的方法看着漂亮,工程落地坑很多。建议:

  • 学术论文当思路启发读,不要硬套
  • 从最简单的存储开始,逐步升级
  • 早做评估,让数据说话

更多细节、其他论文解读、Agent 工程实践,我整理在个人技术博客里。


参考资料

  • From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms (ACL 2026)
  • Generative Agents: Interactive Simulacra of Human Behavior (Park et al., 2023)
  • CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment (arXiv 2024)
  • MemGPT: Towards LLMs as Operating Systems (arXiv 2310.08560)
  • Reflexion: Language Agents with Verbal Reinforcement Learning (NeurIPS 2023)

关于作者

独立 AI Agent 研究者,关注 Agent 工程化落地。

每天读 ArXiv 论文,最近在写 Agent 记忆机制、技能系统、子任务编排相关的源码分析。

如果对本文有任何观点或补充,欢迎评论区交流。