小端AI:增量裁剪+按需回忆 技术白皮书

0 阅读9分钟

增量裁剪与按需回忆架构的完整演进

作者:诺言(yiliu)

日期:2026年4月


摘要

本文系统阐述了一种面向大语言模型的全新记忆管理架构——"增量裁剪+按需回忆",包括其思想源头、核心技术方案与工程实现路径。该架构通过恒定窗口与时间深度索引机制,将单次对话的Token消耗稳定控制在4000以内,同时实现近乎无限的、可按需回调的长期记忆。此外,本系统内置纯文本技能流安全架构与核心文件自愈机制,从执行层面隔离代码注入风险,并保障长期运行的稳定性。本方案独立于任何特定模型生态,已在开源项目"小端AI"中完整落地,经21万用户、8个月零差评验证。


一、背景与动机

2025年下半年,AI Agent领域对"大模型记忆"的主流探索,集中于上下文压缩(Context Compression)方案。其核心思路是:当对话历史超出窗口限制时,由辅助模型对历史信息进行摘要,将压缩后的文本重新注入上下文。

这种方案存在根本性缺陷:

缺陷说明
有损压缩摘要一旦生成,原始细节永久丢失,不可回溯
被动触发压缩仅在窗口即将溢出时启动,无法预防
成本递增压缩本身需要额外调用大模型,增加算力开销
模型被动模型不参与记忆管理,仅被动接收压缩后的上下文

本文作者于2025年8月启动"小端AI"项目,对上述路径提出系统性替代方案。核心洞察是:单次Agent任务无需完整的对话历史,模型仅需知晓当前步骤的任务指令;若缺少关键信息,模型应能主动、精准地按需回调。

这一思想经历了"四层画像系统"(2025年8月)的早期探索与迭代,最终凝结为"增量裁剪+按需回忆"架构,并在2025年12月至今持续优化完善。


二、早期探索:四层画像系统(2025年11月落地)

2.1 设计目标

构建一套独立于对话窗口的、可持久化的记忆系统,使AI能够"记住"历史对话中的关键信息,并在需要时主动调用。

2.2 架构设计

四层画像系统将每次对话的信息分解为四个维度:

层级内容提取方式
人物画像对话中出现的人物、其偏好与背景本地小模型提取关键词
事件画像对话中发生的关键事件与决策同上
地点画像涉及的文件、文件夹、工具与平台同上
内容画像原始对话的关键信息摘要同上

每次对话,让本地小模型预处理一次,根据用户发送的内容提取四层的关键词,预搜索相关记忆,塞入上下文,一并交给云端大模型处理。大模型返回后,传递前端的同时,小模型再静默地将本轮对话总结按四类分层,增量写入记忆文件。

这套系统跑通了。 大模型每次对话确实能拿到相关信息,聊天永远带着需要的记忆。

但问题也来了: 处理速度不足以带来流畅感。每次对话都要经过小模型预处理、内容预搜索、大模型生成后小模型再总结——链路太长,用户能感觉到它在思考,但明显较慢。

流畅感,是体验的生命线。

作者决定推翻了已跑通的四层架构。

2.3 2025年12月至今,彻底重构

随着大模型智商越来越高,作者不再追求"结构化的完美",转而追求"检索的效率"。

记忆被从"分层档案柜"改造成了"时间索引库"。不再让模型去理解复杂的分类,只让它记住一件事:关键词,和时间深度。

于是,"真正的永久记忆"诞生了。恒定窗口,倒叙索引,锚点发散递归检索。速度问题解决了,体验流畅。

后来的"自进化"、"内生安全"、"自愈机制",都是在这套地基上,一层层生长出来的。


三、记忆哲学:我不压缩,只做归档

3.1 常规做法:上下文压缩

当对话太长,就把历史"总结"一下,塞回窗口。

3.2 小端的做法:记忆关键,按需索引

3.2.1 恒定窗口

每一次对话,严格分离对话内容、工具过程、工具结果后分别保存,并在下次对话传递时限制:

类型限制字数
对话内容3000字
工具过程2000字
工具结果2000字

让大模型目的清晰,去掉无用信息,永不膨胀,不溢出。后面增加多少字,就裁剪多少旧消息。

后各大模型厂家推出包月按次模式,作者又针对性增加了复杂模式,提高对话内容为40000字,工具过程8000,工具结果20000,来减少次数调用。

3.2.2 永久记忆核心

给大模型提示词,让它按的发散锚点。

系统在返回的同时,自动把时间上离它最近的几条带回来:

  • 例1:模型说 张三1 旅游1,就是张三和离他最近的旅游记忆,各500字拼起来1000字
  • 例2:重复的 张三4 张三5,就是更久远的张三记忆
  • 例3:还可以发散搜索,当旅游1返回的500字末尾为爬山,用 张三1 爬山1 风景1 可回忆更广的细节

这相当于给模型创造了一套它自己能用的"记忆语言"。 它告诉系统:"我想要这样一块记忆拼图,你帮我拼好拿来。"系统只负责执行,倒叙搜索,速度极快,触发即返回,不用历遍整个记忆文件。

这份回忆控制权交给模型自己。因为一个真正的管家,得知道自己该记住什么,该想起什么。

哲学:人类的记忆不是"压缩"出来的,是"索引"出来的。我们不需要一个"上下文无限"的AI,我们需要一个"知道去哪回忆"的AI。

3.3 架构的工程实现特性

特性说明
恒定Token消耗单次对话稳定在4000 token,不随对话历史增长
无限记忆容量长期记忆库无容量上限,所有历史信息无损归档
模型主动记忆管理模型自主判断何时回忆、回忆多深,掌握记忆控制权
零延迟回忆检索为预建索引的数组访问,不额外消耗推理资源

3.4 安全机制:纯文本技能流

本系统采用纯文本技能描述架构(.MD文档),所有技能以自然语言流程描述形式存储,由核心引擎解析执行。与当前业界普遍依赖的代码沙箱隔离方案不同,该架构从执行层面隔离了恶意代码注入风险,技能文件本身不具备系统级执行能力。

3.5 自愈机制:核心文件监控与自动恢复

系统内置核心文件监控模块。当检测到模型静默超时,自动将核心配置文件回滚至修改前状态并重启,保障长期运行的稳定性和无人值守场景下的系统韧性。


四、首创性与独创性论证

4.1 思想源头的时间线

时间事件
2025年8月作者启动小端AI项目,开始独立探索AI记忆管理方案
2025年11月四层画像系统完整落地,实现"分类总结,按需注入"
2025年12月至今推倒四层架构,重构为"增量裁剪+按需回忆"架构,持续优化完善

在此期间,AI社区关于"分层记忆"、"按需注入"的公开讨论与实现,均晚于作者的独立探索:

事件时间
Claude推出被动记忆功能2025年8月
Claude自动记忆功能向付费用户开放2025年10月
Thoughtworks评估Mem0分层记忆架构2025年11月
claude-mem发布持久化语义记忆方案2025年12月
Milvus解析Claude Code四层记忆架构2026年4月
MemPalace(记忆宫殿)项目发布2026年4月
学术论文"Cooperative Memory Paging"发表于arXiv2026年4月

4.2 核心创新点

  1. 恒定窗口机制:从架构层面实现Token消耗的恒定不增长,而非依赖压缩算法被动处理溢出

  2. 由模型主导的记忆回调:模型通过自定义检索语法主动管理记忆,而非被动接收系统注入的上下文

  3. 时间深度索引与锚点发散检索:独特的记忆检索机制,兼顾精准定位与关联背景

  4. 纯文本技能流安全架构:从执行层面隔离代码注入风险,与当前主流沙箱隔离方案形成路径差异

  5. 核心文件自愈机制:在检测到模型静默超时后自动回滚并重启,保障系统长期运行的稳定性

  6. 工程实现的完整性与稳定性:在21万用户、8个月的实际使用中保持零差评,验证了架构的生产级可用性


五、结论

本文所阐述的"增量裁剪+按需回忆"架构,是对大语言模型记忆管理问题的一种独立原创方案。该方案跳出了主流的"上下文压缩"范式,从"由模型主动管理记忆"的新视角出发,重新定义了AI的记忆方式。配套的纯文本技能流安全架构与核心文件自愈机制,进一步保障了系统的安全性与运行稳定性。该方案已在开源项目"小端AI"中完整实现并经过大规模用户验证,具备理论自洽性与工程可行性。


作者:诺言

项目地址:www.modelscope.cn/datasets/yi…