增量裁剪与按需回忆架构的完整演进
作者:诺言(yiliu)
日期:2026年4月
摘要
本文系统阐述了一种面向大语言模型的全新记忆管理架构——"增量裁剪+按需回忆",包括其思想源头、核心技术方案与工程实现路径。该架构通过恒定窗口与时间深度索引机制,将单次对话的Token消耗稳定控制在4000以内,同时实现近乎无限的、可按需回调的长期记忆。此外,本系统内置纯文本技能流安全架构与核心文件自愈机制,从执行层面隔离代码注入风险,并保障长期运行的稳定性。本方案独立于任何特定模型生态,已在开源项目"小端AI"中完整落地,经21万用户、8个月零差评验证。
一、背景与动机
2025年下半年,AI Agent领域对"大模型记忆"的主流探索,集中于上下文压缩(Context Compression)方案。其核心思路是:当对话历史超出窗口限制时,由辅助模型对历史信息进行摘要,将压缩后的文本重新注入上下文。
这种方案存在根本性缺陷:
| 缺陷 | 说明 |
|---|---|
| 有损压缩 | 摘要一旦生成,原始细节永久丢失,不可回溯 |
| 被动触发 | 压缩仅在窗口即将溢出时启动,无法预防 |
| 成本递增 | 压缩本身需要额外调用大模型,增加算力开销 |
| 模型被动 | 模型不参与记忆管理,仅被动接收压缩后的上下文 |
本文作者于2025年8月启动"小端AI"项目,对上述路径提出系统性替代方案。核心洞察是:单次Agent任务无需完整的对话历史,模型仅需知晓当前步骤的任务指令;若缺少关键信息,模型应能主动、精准地按需回调。
这一思想经历了"四层画像系统"(2025年8月)的早期探索与迭代,最终凝结为"增量裁剪+按需回忆"架构,并在2025年12月至今持续优化完善。
二、早期探索:四层画像系统(2025年11月落地)
2.1 设计目标
构建一套独立于对话窗口的、可持久化的记忆系统,使AI能够"记住"历史对话中的关键信息,并在需要时主动调用。
2.2 架构设计
四层画像系统将每次对话的信息分解为四个维度:
| 层级 | 内容 | 提取方式 |
|---|---|---|
| 人物画像 | 对话中出现的人物、其偏好与背景 | 本地小模型提取关键词 |
| 事件画像 | 对话中发生的关键事件与决策 | 同上 |
| 地点画像 | 涉及的文件、文件夹、工具与平台 | 同上 |
| 内容画像 | 原始对话的关键信息摘要 | 同上 |
每次对话,让本地小模型预处理一次,根据用户发送的内容提取四层的关键词,预搜索相关记忆,塞入上下文,一并交给云端大模型处理。大模型返回后,传递前端的同时,小模型再静默地将本轮对话总结按四类分层,增量写入记忆文件。
这套系统跑通了。 大模型每次对话确实能拿到相关信息,聊天永远带着需要的记忆。
但问题也来了: 处理速度不足以带来流畅感。每次对话都要经过小模型预处理、内容预搜索、大模型生成后小模型再总结——链路太长,用户能感觉到它在思考,但明显较慢。
流畅感,是体验的生命线。
作者决定推翻了已跑通的四层架构。
2.3 2025年12月至今,彻底重构
随着大模型智商越来越高,作者不再追求"结构化的完美",转而追求"检索的效率"。
记忆被从"分层档案柜"改造成了"时间索引库"。不再让模型去理解复杂的分类,只让它记住一件事:关键词,和时间深度。
于是,"真正的永久记忆"诞生了。恒定窗口,倒叙索引,锚点发散递归检索。速度问题解决了,体验流畅。
后来的"自进化"、"内生安全"、"自愈机制",都是在这套地基上,一层层生长出来的。
三、记忆哲学:我不压缩,只做归档
3.1 常规做法:上下文压缩
当对话太长,就把历史"总结"一下,塞回窗口。
3.2 小端的做法:记忆关键,按需索引
3.2.1 恒定窗口
每一次对话,严格分离对话内容、工具过程、工具结果后分别保存,并在下次对话传递时限制:
| 类型 | 限制字数 |
|---|---|
| 对话内容 | 3000字 |
| 工具过程 | 2000字 |
| 工具结果 | 2000字 |
让大模型目的清晰,去掉无用信息,永不膨胀,不溢出。后面增加多少字,就裁剪多少旧消息。
后各大模型厂家推出包月按次模式,作者又针对性增加了复杂模式,提高对话内容为40000字,工具过程8000,工具结果20000,来减少次数调用。
3.2.2 永久记忆核心
给大模型提示词,让它按的发散锚点。
系统在返回的同时,自动把时间上离它最近的几条带回来:
- 例1:模型说 张三1 旅游1,就是张三和离他最近的旅游记忆,各500字拼起来1000字
- 例2:重复的 张三4 张三5,就是更久远的张三记忆
- 例3:还可以发散搜索,当旅游1返回的500字末尾为爬山,用 张三1 爬山1 风景1 可回忆更广的细节
这相当于给模型创造了一套它自己能用的"记忆语言"。 它告诉系统:"我想要这样一块记忆拼图,你帮我拼好拿来。"系统只负责执行,倒叙搜索,速度极快,触发即返回,不用历遍整个记忆文件。
这份回忆控制权交给模型自己。因为一个真正的管家,得知道自己该记住什么,该想起什么。
哲学:人类的记忆不是"压缩"出来的,是"索引"出来的。我们不需要一个"上下文无限"的AI,我们需要一个"知道去哪回忆"的AI。
3.3 架构的工程实现特性
| 特性 | 说明 |
|---|---|
| 恒定Token消耗 | 单次对话稳定在4000 token,不随对话历史增长 |
| 无限记忆容量 | 长期记忆库无容量上限,所有历史信息无损归档 |
| 模型主动记忆管理 | 模型自主判断何时回忆、回忆多深,掌握记忆控制权 |
| 零延迟回忆 | 检索为预建索引的数组访问,不额外消耗推理资源 |
3.4 安全机制:纯文本技能流
本系统采用纯文本技能描述架构(.MD文档),所有技能以自然语言流程描述形式存储,由核心引擎解析执行。与当前业界普遍依赖的代码沙箱隔离方案不同,该架构从执行层面隔离了恶意代码注入风险,技能文件本身不具备系统级执行能力。
3.5 自愈机制:核心文件监控与自动恢复
系统内置核心文件监控模块。当检测到模型静默超时,自动将核心配置文件回滚至修改前状态并重启,保障长期运行的稳定性和无人值守场景下的系统韧性。
四、首创性与独创性论证
4.1 思想源头的时间线
| 时间 | 事件 |
|---|---|
| 2025年8月 | 作者启动小端AI项目,开始独立探索AI记忆管理方案 |
| 2025年11月 | 四层画像系统完整落地,实现"分类总结,按需注入" |
| 2025年12月至今 | 推倒四层架构,重构为"增量裁剪+按需回忆"架构,持续优化完善 |
在此期间,AI社区关于"分层记忆"、"按需注入"的公开讨论与实现,均晚于作者的独立探索:
| 事件 | 时间 |
|---|---|
| Claude推出被动记忆功能 | 2025年8月 |
| Claude自动记忆功能向付费用户开放 | 2025年10月 |
| Thoughtworks评估Mem0分层记忆架构 | 2025年11月 |
| claude-mem发布持久化语义记忆方案 | 2025年12月 |
| Milvus解析Claude Code四层记忆架构 | 2026年4月 |
| MemPalace(记忆宫殿)项目发布 | 2026年4月 |
| 学术论文"Cooperative Memory Paging"发表于arXiv | 2026年4月 |
4.2 核心创新点
-
恒定窗口机制:从架构层面实现Token消耗的恒定不增长,而非依赖压缩算法被动处理溢出
-
由模型主导的记忆回调:模型通过自定义检索语法主动管理记忆,而非被动接收系统注入的上下文
-
时间深度索引与锚点发散检索:独特的记忆检索机制,兼顾精准定位与关联背景
-
纯文本技能流安全架构:从执行层面隔离代码注入风险,与当前主流沙箱隔离方案形成路径差异
-
核心文件自愈机制:在检测到模型静默超时后自动回滚并重启,保障系统长期运行的稳定性
-
工程实现的完整性与稳定性:在21万用户、8个月的实际使用中保持零差评,验证了架构的生产级可用性
五、结论
本文所阐述的"增量裁剪+按需回忆"架构,是对大语言模型记忆管理问题的一种独立原创方案。该方案跳出了主流的"上下文压缩"范式,从"由模型主动管理记忆"的新视角出发,重新定义了AI的记忆方式。配套的纯文本技能流安全架构与核心文件自愈机制,进一步保障了系统的安全性与运行稳定性。该方案已在开源项目"小端AI"中完整实现并经过大规模用户验证,具备理论自洽性与工程可行性。
作者:诺言