如何用好大模型的短期记忆和长期记忆这是前些天在x上面讨论的问题。开发者 Rohit 面试失败后，开始深入研究 Agent

这是前些天在x上面讨论的问题。开发者 Rohit 面试失败后，开始深入研究 Agent 记忆系统，最终构建出生产级方案。核心洞察：记忆是基础设施，不是功能。

标准方案为何失效

10 轮对话后，上下文窗口填满，系统开始截断旧消息。结果？Agent 忘记了用户是素食者。

问题根源：对话历史不是记忆，只是聊天日志。

两周后，数据库积累了 500 条记录。用户问"我的工作情况"，向量检索返回 12 段矛盾片段。Agent 幻觉出错误的综合答案。

问题根源：Embedding 衡量的是相似性，不是真实性。向量数据库不理解时间、上下文或更新。

每个 Agent 作为状态机运行。检查点是特定时刻整个状态的快照，提供：

三层结构：

写入时主动处理：新信息不只是归档，而是编织进现有摘要。用户转向 Rust？系统重写档案替换旧偏好，自动解决矛盾。

读取时分层检索：先拉摘要，问 LLM"够了吗"，不够再下钻到具体事实。

混合结构：

冲突解决：用户从 Google 跳槽到 OpenAI？系统识别矛盾，归档旧连接为历史，更新当前雇主。

混合检索：向量搜索 + 图谱遍历并行运行，结果合并。

"永不遗忘"不是"记住每个 Token"，而是"记住重要的"。

维护策略：

从上下文窗口约束反向工作：

结果：只注入 5-10 条真正有用的记忆。

把 Agent 当操作系统，不是聊天机器人：

记忆系统的关键在于：不是存储，而是组织和衰减。对话历史是日志，向量检索只是工具，真正的记忆需要结构化、冲突解决和定期维护。

核心原则：记忆是基础设施。像操作系统管理内存一样管理记忆，Agent 才能长期可靠地工作。