小端AI：增量裁剪+按需回忆技术白皮书增量裁剪与按需回忆架构的完整演进作者：诺言（yiliu）日期：2026年4月

增量裁剪与按需回忆架构的完整演进

作者：诺言（yiliu）

日期：2026年4月

摘要

本文系统阐述了一种面向大语言模型的全新记忆管理架构——"增量裁剪+按需回忆"，包括其思想源头、核心技术方案与工程实现路径。该架构通过恒定窗口与时间深度索引机制，将单次对话的Token消耗稳定控制在4000以内，同时实现近乎无限的、可按需回调的长期记忆。此外，本系统内置纯文本技能流安全架构与核心文件自愈机制，从执行层面隔离代码注入风险，并保障长期运行的稳定性。本方案独立于任何特定模型生态，已在开源项目"小端AI"中完整落地，经21万用户、8个月零差评验证。

一、背景与动机

2025年下半年，AI Agent领域对"大模型记忆"的主流探索，集中于上下文压缩（Context Compression）方案。其核心思路是：当对话历史超出窗口限制时，由辅助模型对历史信息进行摘要，将压缩后的文本重新注入上下文。

这种方案存在根本性缺陷：

缺陷	说明
有损压缩	摘要一旦生成，原始细节永久丢失，不可回溯
被动触发	压缩仅在窗口即将溢出时启动，无法预防
成本递增	压缩本身需要额外调用大模型，增加算力开销
模型被动	模型不参与记忆管理，仅被动接收压缩后的上下文

本文作者于2025年8月启动"小端AI"项目，对上述路径提出系统性替代方案。核心洞察是：单次Agent任务无需完整的对话历史，模型仅需知晓当前步骤的任务指令；若缺少关键信息，模型应能主动、精准地按需回调。

这一思想经历了"四层画像系统"（2025年8月）的早期探索与迭代，最终凝结为"增量裁剪+按需回忆"架构，并在2025年12月至今持续优化完善。

二、早期探索：四层画像系统（2025年11月落地）

2.1 设计目标

构建一套独立于对话窗口的、可持久化的记忆系统，使AI能够"记住"历史对话中的关键信息，并在需要时主动调用。

2.2 架构设计

四层画像系统将每次对话的信息分解为四个维度：

层级	内容	提取方式
人物画像	对话中出现的人物、其偏好与背景	本地小模型提取关键词
事件画像	对话中发生的关键事件与决策	同上
地点画像	涉及的文件、文件夹、工具与平台	同上
内容画像	原始对话的关键信息摘要	同上

每次对话，让本地小模型预处理一次，根据用户发送的内容提取四层的关键词，预搜索相关记忆，塞入上下文，一并交给云端大模型处理。大模型返回后，传递前端的同时，小模型再静默地将本轮对话总结按四类分层，增量写入记忆文件。

这套系统跑通了。大模型每次对话确实能拿到相关信息，聊天永远带着需要的记忆。

但问题也来了：处理速度不足以带来流畅感。每次对话都要经过小模型预处理、内容预搜索、大模型生成后小模型再总结——链路太长，用户能感觉到它在思考，但明显较慢。

流畅感，是体验的生命线。

作者决定推翻了已跑通的四层架构。

2.3 2025年12月至今，彻底重构

随着大模型智商越来越高，作者不再追求"结构化的完美"，转而追求"检索的效率"。

记忆被从"分层档案柜"改造成了"时间索引库"。不再让模型去理解复杂的分类，只让它记住一件事：关键词，和时间深度。

于是，"真正的永久记忆"诞生了。恒定窗口，倒叙索引，锚点发散递归检索。速度问题解决了，体验流畅。

后来的"自进化"、"内生安全"、"自愈机制"，都是在这套地基上，一层层生长出来的。

三、记忆哲学：我不压缩，只做归档

3.1 常规做法：上下文压缩

当对话太长，就把历史"总结"一下，塞回窗口。

3.2 小端的做法：记忆关键，按需索引

3.2.1 恒定窗口

每一次对话，严格分离对话内容、工具过程、工具结果后分别保存，并在下次对话传递时限制：

类型	限制字数
对话内容	3000字
工具过程	2000字
工具结果	2000字

让大模型目的清晰，去掉无用信息，永不膨胀，不溢出。后面增加多少字，就裁剪多少旧消息。

后各大模型厂家推出包月按次模式，作者又针对性增加了复杂模式，提高对话内容为40000字，工具过程8000，工具结果20000，来减少次数调用。

3.2.2 永久记忆核心

给大模型提示词，让它按的发散锚点。

系统在返回的同时，自动把时间上离它最近的几条带回来：

例1：模型说张三1 旅游1，就是张三和离他最近的旅游记忆，各500字拼起来1000字
例2：重复的张三4 张三5，就是更久远的张三记忆
例3：还可以发散搜索，当旅游1返回的500字末尾为爬山，用张三1 爬山1 风景1 可回忆更广的细节

这相当于给模型创造了一套它自己能用的"记忆语言"。它告诉系统："我想要这样一块记忆拼图，你帮我拼好拿来。"系统只负责执行，倒叙搜索，速度极快，触发即返回，不用历遍整个记忆文件。

这份回忆控制权交给模型自己。因为一个真正的管家，得知道自己该记住什么，该想起什么。

哲学：人类的记忆不是"压缩"出来的，是"索引"出来的。我们不需要一个"上下文无限"的AI，我们需要一个"知道去哪回忆"的AI。

3.3 架构的工程实现特性

特性	说明
恒定Token消耗	单次对话稳定在4000 token，不随对话历史增长
无限记忆容量	长期记忆库无容量上限，所有历史信息无损归档
模型主动记忆管理	模型自主判断何时回忆、回忆多深，掌握记忆控制权
零延迟回忆	检索为预建索引的数组访问，不额外消耗推理资源

3.4 安全机制：纯文本技能流

本系统采用纯文本技能描述架构（.MD文档），所有技能以自然语言流程描述形式存储，由核心引擎解析执行。与当前业界普遍依赖的代码沙箱隔离方案不同，该架构从执行层面隔离了恶意代码注入风险，技能文件本身不具备系统级执行能力。

3.5 自愈机制：核心文件监控与自动恢复

系统内置核心文件监控模块。当检测到模型静默超时，自动将核心配置文件回滚至修改前状态并重启，保障长期运行的稳定性和无人值守场景下的系统韧性。

四、首创性与独创性论证

4.1 思想源头的时间线

时间	事件
2025年8月	作者启动小端AI项目，开始独立探索AI记忆管理方案
2025年11月	四层画像系统完整落地，实现"分类总结，按需注入"
2025年12月至今	推倒四层架构，重构为"增量裁剪+按需回忆"架构，持续优化完善

在此期间，AI社区关于"分层记忆"、"按需注入"的公开讨论与实现，均晚于作者的独立探索：

事件	时间
Claude推出被动记忆功能	2025年8月
Claude自动记忆功能向付费用户开放	2025年10月
Thoughtworks评估Mem0分层记忆架构	2025年11月
claude-mem发布持久化语义记忆方案	2025年12月
Milvus解析Claude Code四层记忆架构	2026年4月
MemPalace（记忆宫殿）项目发布	2026年4月
学术论文"Cooperative Memory Paging"发表于arXiv	2026年4月

4.2 核心创新点

恒定窗口机制：从架构层面实现Token消耗的恒定不增长，而非依赖压缩算法被动处理溢出
由模型主导的记忆回调：模型通过自定义检索语法主动管理记忆，而非被动接收系统注入的上下文
时间深度索引与锚点发散检索：独特的记忆检索机制，兼顾精准定位与关联背景
纯文本技能流安全架构：从执行层面隔离代码注入风险，与当前主流沙箱隔离方案形成路径差异
核心文件自愈机制：在检测到模型静默超时后自动回滚并重启，保障系统长期运行的稳定性
工程实现的完整性与稳定性：在21万用户、8个月的实际使用中保持零差评，验证了架构的生产级可用性

五、结论

本文所阐述的"增量裁剪+按需回忆"架构，是对大语言模型记忆管理问题的一种独立原创方案。该方案跳出了主流的"上下文压缩"范式，从"由模型主动管理记忆"的新视角出发，重新定义了AI的记忆方式。配套的纯文本技能流安全架构与核心文件自愈机制，进一步保障了系统的安全性与运行稳定性。该方案已在开源项目"小端AI"中完整实现并经过大规模用户验证，具备理论自洽性与工程可行性。

作者：诺言

项目地址：www.modelscope.cn/datasets/yi…

小端AI：增量裁剪+按需回忆 技术白皮书