最近系统看了一轮 AI Agent 的记忆架构,越看越觉得,很多人其实低估了“记忆”这件事的重要性。
大家现在讨论 Agent,常常把注意力放在模型能力、工具调用、工作流编排、上下文长度这些地方。但如果把时间线拉长,你会发现,真正决定 Agent 上限的,往往不是它这一轮能答得多聪明,而是它能不能在长期交互里持续积累、整理、更新和调用经验。
换句话说,决定 Agent 是否真正“有用”的关键,不只是推理能力,还有记忆能力。
一个没有稳定记忆系统的 Agent,本质上很像一个每次醒来都只剩下模糊印象的人。它可以在局部对话里显得聪明,也可以在几轮任务里表现不错,但一旦任务周期变长、上下文变复杂、用户关系变持续,它的问题就会立刻暴露出来。
它会忘掉重要偏好,会重复犯同样的错误,会在不同时间说出互相冲突的话,也很难真正形成对某个用户、某类任务、某个项目的长期理解。
所以我现在越来越倾向于一个判断:
记忆不是 Agent 的附属模块。记忆就是 Agent 的基础设施。
如果这一层没搭好,Agent 再会调用工具,也更像一个一次性的高配聊天机器人。只有记忆系统开始成熟,Agent 才有可能真正跨入“长期协作”的阶段。
一、今天的 Agent 记忆,已经不只是“存 Embedding 再检索”
如果用一句话概括这两年的变化,那就是:
Agent 记忆,正在从简单的向量检索,走向更接近人脑的分层系统。
最早很多人做记忆,思路都比较直接。把对话切块,做 embedding,丢进向量库。等用户下次提到相似内容,再从里面捞几段出来,拼回上下文。
这套方法不是没用。它解决了最基础的问题,也就是“模型上下文有限,但信息量无限”这个矛盾。但它的问题同样明显。
第一,它只能解决“找相似内容”,很难解决“理解什么重要”。
第二,它能把旧信息找回来,却不太会处理新旧冲突。
第三,它更像一个外置检索器,不像一个真正会成长的记忆系统。
第四,随着数据变多,噪音也会变多,最后经常变成“能搜到很多,真正有用的不多”。
所以行业现在在往前走,而且方向已经越来越清楚了。
真正有竞争力的 Agent 记忆系统,已经不再满足于“存”和“搜”。它开始关注五件更难的事:
- 怎么分层存储。
- 怎么抽取重点。
- 怎么把事件变成知识。
- 怎么处理更新和冲突。
- 怎么在必要时遗忘。
这几个问题一旦放在一起看,你会发现,所谓的 Agent 记忆,已经越来越像一个小型认知架构。
二、主流方案其实在往几个非常明确的方向收敛
如果把现在常见的记忆方案拆开看,核心上大致分成几条路线。
第一类,是以 OpenClaw 这类方案为代表的 可解释记忆层。
它的思路很朴素,也很有魅力。直接把记忆写进 Markdown 文件里。用户能看到,能检查,能修改。短期记忆写成按日期追加的日志,长期记忆沉淀进核心文件。这样做最大的优点是透明,出了问题能排查,记忆内容不是藏在黑箱数据库里。
我一直觉得,这种设计非常适合作为 Agent 记忆系统的“事实层”。因为记忆这件事,一旦完全不可见,很快就会变成一个难以调试的黑洞。你不知道它到底记住了什么,也不知道它到底是哪里出了错。
但问题也很明显。仅靠这种方式,记忆系统会越来越依赖 Agent 主动写入、主动调用、主动整理。缺少自动更新机制,缺少遗忘机制,也缺少高效索引。短时间内还好,长期运行后就容易臃肿、重复、混乱。
所以这类方案更像是一个优秀的起点,而不是完整答案。
第二类,是 QMD 这种 混合检索后端。
这一类的核心思想,是给原本可读的记忆层补上一套真正像样的搜索系统。关键词全文检索负责精确匹配,向量检索负责语义召回,本地重排序负责把结果重新排一遍。这样做有个非常现实的好处,就是既能搜准,也能搜广,还能尽量降低大模型的无效参与。
很多 Agent 记忆做不起来,不是因为不能存,而是因为找得太差。你明明有记忆,但你拿不出来,或者拿出来的是一堆边角料。检索质量差,记忆层的价值就会被直接打折。
所以我很认同这种思路。记忆系统不只是数据库,它还是一个高质量检索系统。
第三类,是 Viking、OpenViking 这种 上下文数据库路线。
这种方案的野心更大。它不只是在存聊天记录,而是在做事件抽取、用户建模、长期画像、上下文统一管理。这里面最值得注意的一点是,它把“记忆”提升成了 Agent 的核心资产。
这很关键。
过去很多系统把记忆看成聊天记录的副产物,顺手存一下,下次可能用到。现在更先进的路线开始把它当成主资产来经营。每一次交互、每一个事件、每一条偏好、每一个任务结果,都不只是历史记录,而是未来判断的输入。
这其实是视角上的升级。
当你把记忆看成资产,你才会认真去思考它的结构、质量、更新逻辑和生命周期。
第四类,是 Letta、MemGPT 这种 自管理记忆路线。
这一类非常有启发性。它借鉴的是操作系统的内存分层思想。Agent 的一部分记忆留在当前上下文里,作为注意力核心。更多记忆放在外部存储中,需要时再调用。更进一步,Agent 甚至可以自己决定哪些内容应该进入当前上下文,哪些内容应该被归档到外部。
这件事的重要性在于,它打破了一个默认前提:
上下文窗口不等于全部记忆。
人类也不是把一生所有经历同时放在脑海里运作。我们只是根据当前目标和情境,调取一小部分最相关的信息进入意识层面。Agent 记忆如果想做强,迟早也会走到这一步。不是拼命塞更多内容进上下文,而是学会管理上下文。
第五类,是 Mem0 这种 智能更新路线。
我觉得这是很多人最容易低估、但实际上最关键的一步。因为记忆系统最难的问题,从来不是“怎么记住”,而是“新信息来了以后,旧记忆怎么办”。
如果 Agent 以前记得“这个用户喜欢短回答”,后来用户明确说“以后尽量详细一点”,那系统应该新增一条吗?覆盖旧条目吗?保留两条吗?如果项目状态发生变化,旧结论还要不要继续参与检索?如果同一件事在不同场景里说法不同,哪条更可信?
这些都是更新问题。
而更新问题,决定了记忆系统是否会越跑越脏。
所以真正成熟的记忆层,一定不只是存储层,也一定不只是检索层,它必须还是一个决策层。新信息进入系统以后,需要判断:新增、修改、合并、忽略、删除、归档,具体该怎么处理。
这一步没做好,记忆越多,污染越重。
三、认知科学其实早就给了很多答案
我越研究越觉得,Agent 记忆这件事,本质上已经走到了认知科学会大量重新变得有用的阶段。
因为很多前沿方案,看起来像工程创新,底层其实都在重复发现那些关于人脑记忆的经典结论。
最重要的一个启发,就是短期记忆和长期记忆必须分开。
人脑不会把所有信息平铺处理。感知到的信息先进入短暂缓冲,一小部分被注意力选中,进入工作记忆,再经过加工和整合,才有可能进入长期记忆。这个流程的意义非常大,因为它说明一件事:
不是所有信息都值得被长期保存。
这对 Agent 是一个非常重要的提醒。不是每轮对话都应该直接进入“永久记忆”,也不是所有历史都应该被同等对待。最近几轮对话、当前任务状态、当前目标约束,这些更像工作记忆。稳定偏好、长期项目背景、关键决策记录、反复验证过的知识,这些才更接近长期记忆。
如果把这两者混在一起,系统就很容易失真。因为临时状态会污染长期判断,长期事实又会挤占短期注意力。
第二个重要启发,是情景记忆和语义记忆是两回事。
人会记住发生过什么,也会记住从这些事情里总结出了什么。前者是经历,后者是知识。前者往往带着具体时间、地点、上下文和细节。后者更抽象,更稳定,也更适合长期迁移。
对 Agent 来说,这一点特别关键。
“用户昨天提到想做一个 iOS App”
这是一条情景记忆。
“这个用户长期偏好做高杠杆、可迭代、可产品化的项目”
这更像一条语义记忆。
如果一个 Agent 只能保存第一种信息,它最多只是一个会翻聊天记录的系统。只有当它能把一系列情景整合成高层判断,它才开始真正“长出理解”。
所以我现在越来越相信,记忆整合这一步,比“写入更多日志”重要得多。
很多系统的问题不在于没记,而在于不会整理。它把所有事件都留下来了,但没有把这些事件压缩成规则、偏好、画像、经验、模式。结果就是记忆库越来越大,认知能力却没有同步增长。
而人脑的高效之处,恰恰在于它会整合。它不会把每一天的每一句话都精确保留,而是会逐步抽出稳定的模式和结构。某种意义上,成长本身就是一种高质量的记忆压缩。
这对 Agent 的启发非常直接:
一个真正好的记忆系统,不应该只是写日志。
它还应该定期做“记忆整合”。
比如每天、每周、每个任务阶段结束后,回看最近的交互和事件,抽取关键事实,更新核心画像,总结高频模式,把短期经历转成长期知识。
这一步如果做起来,Agent 才会真正呈现出一种“越用越懂你”的感觉。
否则它只是“越用越大”。
四、未来的主流路线,大概率是分层记忆架构
现在我最看好的方向,不是更大的向量库,也不是更花哨的检索技巧,而是分层记忆架构。
原因很简单。不同类型的信息,天然就应该被不同方式处理。
- 最近发生的任务步骤,需要保留细节。
- 长期偏好,需要抽象和稳态。
- 项目背景,需要结构化。
- 失败经验,需要可追溯。
- 工作流规则,需要可复用。
- 资源位置和引用链接,需要可精确定位。
如果把这些东西全都扔进一个统一向量池里,再指望一次相似度检索把问题解决,这种做法从系统设计上就太粗糙了。
所以现在越来越多的研究开始做层次化拆分。短期工作记忆是一层,中期上下文记忆是一层,长期画像又是一层。再往下,还会细分出情景记忆、语义记忆、程序性记忆、资源记忆、知识库记忆,甚至多 Agent 共享记忆。
我认为这不是“复杂化”,而是“终于开始认真分类”。
真正可扩展的 Agent,最后一定要回答两个问题:
什么应该保留原始细节。
什么应该被抽象成可迁移的知识。
这两个问题如果不分开,系统就永远会在“细节太多”和“抽象太空”之间来回摆动。
我比较认可的一种结构是这样的:
- 最底层保留原始事件和交互日志,作为可追溯材料。
- 中间层做摘要、聚类、阶段性整理。
- 高层沉淀稳定规则、长期偏好、用户画像、任务经验和世界知识。
这个结构的好处是,既不丢源头,也不让高层认知被细节淹没。
五、记忆系统最难的地方,其实是“可靠”
很多人做记忆系统时,最先关注的是召回率、相关性、速度、成本,这些当然都重要。但如果从长期来看,我觉得真正最难的其实是另一个问题:
你怎么保证,被取出来的记忆是可信的。
这件事比“有没有记住”更重要。
因为记错,比忘掉更危险。
当前很多 Agent 记忆系统都会面临类似风险。它可能把一段临时表述当成长期事实,把过期信息当成最新状态,把相互冲突的内容同时保留,把某次错误总结不断重复放大。更糟的是,这些错误一旦进入记忆系统,后面每一次检索都可能继续把它们喂回模型,形成自我强化的污染循环。
这就是为什么我越来越觉得,成熟的记忆系统必须具备三种能力。
第一,来源可追溯。
关键记忆最好能知道它来自哪次对话、哪个事件、哪个数据源。没有溯源,出了错就很难纠偏。
第二,冲突可裁决。
当新旧信息不一致时,系统必须有明确规则。按时间戳更新,按来源可信度更新,按用户明确指令更新,或者进入待确认状态,总之不能糊成一团。
第三,检索后验证。
不是搜出来就直接塞回上下文,而是先做一道轻量验证。它还有效吗,它过期了吗,它和当前状态冲突吗,它是临时偏好吗,还是稳定偏好。哪怕这一步只做 70 分,也能大幅降低“记忆幻觉”的累积风险。
说到底,记忆系统不是越大越好,而是越准越值钱。
六、遗忘不是缺陷,而是高级能力
还有一个越来越重要的判断是:
不会遗忘的记忆系统,最后通常也不会真正理解重要性。
很多人一做记忆,就天然有一种冲动,觉得应该尽可能多存、多留、多保全。这个直觉很容易理解,因为存储变便宜了,检索也越来越强,似乎没什么必要删。
但问题在于,信息系统的成本从来不只体现在存储上,更体现在注意力上。
记忆太多而没有层级,没有衰减,没有归档,最终会带来几个非常实际的问题。检索噪音会增加,旧偏好会持续干扰新判断,过时信息会和当前信息争夺权重,系统的整体判断会越来越混浊。
人脑之所以高效,恰恰因为它不是无差别保留一切。它会遗忘,会弱化,会压缩,会把很多不重要的信息逐步推到边缘。
所以对 Agent 来说,遗忘不是能力不足,恰恰是系统成熟的标志。
我认为比较合理的做法,包括几个方向。
- 按时间衰减长期未访问记忆的激活权重。
- 按访问频率和使用价值动态调整权重。
- 按任务相关性把低价值记忆转入冷存储。
- 当用户目标或项目阶段发生重大变化时,主动清理旧画像和旧假设。
真正优秀的记忆系统,不只是知道该记什么,也知道该淡化什么。
七、如果让我给 OpenClaw 设计一套更强的记忆系统
如果把前面的思考落到实际架构上,我目前最倾向的是一种混合分层方案。
第一层,保留 Markdown 作为事实层。
这是整个系统可解释性的基础。记忆内容必须可见、可查、可修正。对 Agent 来说,这一层相当于“最终写下来的事实账本”。
第二层,引入向量索引和全文索引,作为检索加速层。
这一层不定义真相,只负责提高召回效率。关键词检索负责精确定位,语义检索负责扩大召回范围,重排序负责提升最终相关性。
第三层,建设结构化的核心记忆层。
比如用 SQLite 或其他关系型数据库存储用户画像、长期偏好、Agent 状态、关键实体、项目关系、核心规则。这部分不该是随意散落的文本,而应该是可查询、可更新、可校验的结构化资产。
第四层,加入一个定时运行的记忆整合流程。
它持续读取近期日志,抽取事件,识别偏好变化,更新核心事实,总结高频模式,把短期经历逐步折叠成中长期知识。这一步非常关键,它决定 Agent 是“只是记很多”,还是“真的越用越聪明”。
第五层,建立遗忘与归档机制。
每条记忆都带上访问时间、访问频率、重要性、来源可信度等字段。长期低价值内容自动降权或冷存储,重要内容保持高激活状态。这样系统才能长期健康运行。
这套架构背后的原则,其实可以压缩成一句话:
Markdown 保证可读性,混合检索保证效率,结构化数据库保证稳定性,整合与遗忘保证长期健康。
我觉得这大概率会比“全靠一个向量库”或者“全靠日志文件”都更稳。
八、最后的判断
如果让我用一句话概括这轮研究后的结论,我会这么说:
未来真正强的 Agent 记忆系统,不会只是一个外挂检索器,而会越来越像一个小型认知系统。
- 它会有分层。
- 会有整合。
- 会有反思。
- 会有冲突处理。
- 会有可靠性校验。
- 也会有遗忘。
谁先把这一层打磨出来,谁的 Agent 才更可能跨过“能说会做”和“能长期协作”之间的那条线。
因为 Agent 最终拼的,不只是当下这一轮回答质量。
它拼的其实是另一件更长期的事:
它能不能把过去沉淀成未来的判断。
而这,才是记忆真正稀缺的价值。