Knox记忆系统 — 全功能深度解析Knox-MS 不是渐进式的改进—而是一种全新的AI交互方法。通过结合自主编排、类脑

Knox 记忆系统 (knox-ms) 已达到完全生产就绪状态。从自主任务编排到自愈基础设施，每一个子系统现在都已上线并全面运行。本文全面介绍了 knox-ms 的每一项功能、能力和架构决策，正是这些使其成为第一个拥有真正无限、类脑记忆的 AI 模型。

什么是 Knox-MS？

Knox-MS 是一个自定义 AI 模型 (knox/knox-ms)，通过模仿人脑的智能记忆管理系统，提供真正无限的上下文窗口长度。与其他所有受固定上下文窗口限制的大语言模型不同，knox-ms 通过精密的 计划 → 任务 → 记忆 架构编排多个底层模型，动态管理哪些内容需要记住、哪些需要总结、哪些可以遗忘。

记忆系统（大脑）= 核心智能
  ↓ 管理和更新
上下文缓存（LLM）= 工作记忆
  ↓ 增强于
向量嵌入与重排序（工具）= 信息检索

结果：任何规模的对话和项目——从简单问题到数月的开发工作——都不会丢失上下文或触及 token 限制。

1. 自主编排引擎

knox-ms 的核心是一个完全自主的执行循环，在每个阶段都由 LLM 推理驱动。

目标优化

当你发送请求时，系统不仅仅是回应——它会思考。自主核心通过 LLM 驱动的目标分析分解你的输入，将复杂请求拆解为结构化的目标层级。如果目标模糊不清，引擎会在继续执行前内部提出澄清性的子问题来细化目标。

多任务规划

一旦理解了目标，knox-ms 会生成一个包含 1 到 8 个并行或顺序任务的结构化执行计划。每个任务按以下维度分类：

类型 — 编码、分析、研究、通用
难度 — 简单、中等或困难
依赖关系 — 哪些任务必须在其他任务开始前完成

如果规划失败或生成了单一的整体任务，系统会优雅地回退到更简单的计划，而不是直接失败。

智能任务系统

任务不是静态的待办事项——它们是自适应执行单元，具有：

优先级计算 — 根据依赖关系、难度和目标相关性动态计算
依赖图 — 任务根据其关系进行排序和并行化
模型升级的自适应重试 — 如果任务在较简单的模型上失败，会自动使用更强大的模型重试
难度升级 — 失败或低质量的任务会以更高的难度等级重新排队

状态机循环执行

自主引擎作为状态机运行，具有定义的检查点。在每次迭代中：

执行下一批就绪任务
使用基于 LLM 的评估和置信度评分进行自我评估
如果质量低于阈值则应用修正
通过基于 LLM 的成就评估检查目标完成情况
如果目标评估识别出额外需要的任务则优化计划
创建恢复检查点
重复直到目标完全实现或达到迭代限制

这种架构意味着 knox-ms 可以自主处理复杂的多步骤目标——在每一步进行规划、执行、评估、修正和完成，无需人工干预。

2. 记忆系统 — 大脑，而非缓冲区

记忆系统是 knox-ms 与其他所有 AI 模型根本不同的地方。它提供持久的、有组织的、自我优化的记忆，其工作方式完全像人脑。

类人记忆管理

正如你的大脑不会存储每次对话的每个细节，knox-ms 通过持续的 CRUD 操作智能管理信息：

创建 (CREATE) — 新的会话、计划、任务记录和发现的模式会自动存储
读取 (READ) — 每次请求只加载相关的记忆到工作上下文中
更新 (UPDATE) — 任务结果、对话历史和上下文摘要持续优化
删除 (DELETE) — 临时文件、冗余信息和过期缓存条目自动清理

层次化记忆组织

记忆以树状文件系统组织，具有多层次的详细程度：

层级	保留	详细程度
近期（最后几轮对话）	完整细节	包含所有上下文的完整对话
中期（当前会话）	关键要点	决策、结果、重要交流
长期（历史）	语义摘要	模式、已学概念、压缩知识

自动记忆管理器

自动记忆管理器处理每个记忆条目的生命周期：

评分 — 每个记忆条目获得一个相关性分数，随时间按照艾宾浩斯遗忘曲线衰减
保留策略 — 可配置的保留期限，自动清理低于分数阈值的条目
去重 — 检测并合并相似的记忆以防止膨胀
压缩 — 在保留关键信息的同时压缩较旧的记忆
可配置限制 — 最大条目数、记忆大小上限和清理间隔均可调整

摘要引擎

Knox-ms 包含提取式和结构化两种摘要功能：

提取式摘要从对话历史中提取最重要的句子和事实
结构化摘要使用 LLM 调用生成组织化的层次摘要，包含关键决策、结果和学到的模式
摘要与原始历史一起保存，既提供快速访问的概览，也在需要时提供完整细节

3. 上下文管理 — 设计上无限

上下文管理器是记忆系统与 LLM 工作上下文窗口之间的桥梁。

多级上下文

knox-ms 不是将所有内容都塞入单个提示词，而是维护多个上下文级别：

启用上下文 — 当前任务的即时工作集
会话上下文 — 更广泛的会话历史和目标
跨会话上下文 — 来自之前会话的知识和模式
全局知识 — 已学习的模式和永久知识库条目

智能压缩

当上下文超过阈值时，系统应用渐进式压缩：

较旧的对话轮次被摘要，而最近的轮次保持完整细节
压缩率可配置（从最小到激进）
在记忆压力大时，强制压缩作为自愈操作可用

上下文缓存优化

Knox-ms 组织记忆以最大化 LLM 提示缓存命中率：

稳定前缀 — 经常使用的上下文放置在一致的位置以启用缓存
动态后缀 — 每次请求变化的特定任务上下文附加在稳定部分之后
智能失效 — 缓存仅在记忆显著更新时才失效，而不是每次更改都失效

这意味着你在保持真正无限上下文深度的同时，还能获得提示缓存的成本和速度优势。

4. 知识图谱

Knox-ms 构建和维护一个持久知识图谱，捕捉概念、代码实体、决策和模式之间的关系。

图结构

知识节点 — 单独的事实、概念、代码模式或决策
关系 — 节点之间的类型化连接（依赖于、关联于、取代等）
相关性评分 — 每个节点和关系携带一个根据访问模式和近期性更新的分数

LLM 驱动的知识提取

当任务完成时，knox-ms 使用 LLM 调用执行结构化知识提取：

每段内容被分析以产生带有标题、内容、标签和相关性分数（0.0–1.0）的知识条目
提取的知识存储在图中，并可用于未来的上下文加载
系统随时间学习哪些类型的知识最有用

5. 向量嵌入与语义搜索

Knox-ms 包含完整的向量嵌入管道，用于对项目内容和对话历史进行语义搜索。

嵌入管道

索引 — 项目文件被分块（2048 个 token，带重叠）并使用 VoyageAI 模型嵌入（voyage-3.5 用于通用内容，voyage-code-3 用于代码）
存储 — 嵌入持久化到 Knox 存储中，按用户范围划分，首次访问时延迟加载
搜索 — 查询被嵌入并使用余弦相似度与存储的向量匹配
重排序 — 使用 VoyageAI 的 rerank-2.5 模型对候选结果进行精细相关性重排序

弹性嵌入服务

嵌入管道为生产可靠性而构建：

指数退避重试 — 失败的 API 调用最多重试可配置的次数，使用指数延迟（500ms × 2^尝试次数）加上抖动以避免惊群效应
智能重试过滤 — 4xx 错误（429 速率限制除外）跳过重试，因为重试不会成功
断路器 — 连续 5 次失败后，系统打开断路器，快速失败 60 秒，防止级联故障。半开状态允许周期性探测，连续 3 次成功后断路器关闭
模拟回退 — 在开发环境中或当 VoyageAI 持续不可用时，确定性模拟嵌入确保系统继续运行

TTL 与容量管理

向量存储被主动维护：

基于 TTL 的驱逐 — 超过配置的最大年龄的向量会自动删除
容量强制 — 使用 LRU 驱逐（最旧优先）强制执行每用户向量限制
缓存清理 — 在维护周期中清除过期的嵌入缓存条目
存储持久化 — 任何变更后，清理后的状态异步持久化到 Knox 存储

6. 自愈基础设施

Knox-ms 不仅从错误中恢复——它通过 12 种不同的修复操作类型自我诊断和修复。

修复操作

操作	功能
切换模型	当前模型失败或表现不佳时路由到不同的底层模型
降级到更简单的模型	为困难任务降级到更简单、更可靠的模型
清除缓存	清除所有会话中的所有缓存上下文条目以解决过期数据问题
减少上下文大小	按可配置的百分比强制压缩缓存的上下文以保持在限制内
优化记忆	触发记忆清理，删除旧历史和过期记忆状态
调整批大小	修改运行时批处理参数
限流请求	在高负载场景下应用请求速率限制
优先缓存	调整缓存优先级以获得更好的命中率
+ 另外 4 种	针对边缘情况的额外运行时配置覆盖

自愈如何工作

当自主循环遇到错误时：

系统分析错误原因并选择最合适的修复操作类型
选定的操作委托给自管理器，执行真实的系统变更（而非模拟）
循环使用已应用的修复重试失败的操作
如果修复失败，系统可以升级到更激进的操作

所有修复操作都通过实际的子系统调用执行——模型切换更新中继的默认模型，缓存清除操作真实的上下文管理器，记忆清理针对实际的记忆存储运行。

优化引擎

除了错误恢复，自管理器还主动应用 8 种优化类型：

基于观察到的执行模式的性能优化
减少记忆和 token 使用的资源优化
提高输出准确性的质量优化
更快响应时间的延迟优化

7. 学习与模式识别

Knox-ms 从每次执行中学习，并随时间变得更加智能。

它学到了什么

目标分类 — 识别正在请求的目标类型并建议经过验证的方法
模型性能跟踪 — 记录哪些模型在哪些任务类型和难度级别上表现最佳
任务类型成功率 — 跟踪每个任务类别的成功/失败率以改进未来的规划
方法建议 — 在生成新计划之前，系统会查阅已学习的模式，并应用来自过去成功经验的模型偏好和方法提示

学习如何集成

在自主执行循环中：

规划之前 — 系统调用学习服务，根据当前目标获取方法建议，可能影响模型选择和任务分解
执行之后 — 成功或失败会与完整的执行数据（所有任务、使用的模型、token 数量、延迟）一起记录
随时间推移 — 系统建立一个执行模式数据库，持续提高规划质量

记忆整合

后台整合任务定期运行以加强长期记忆：

艾宾浩斯衰减 — 记忆条目的相关性随时间自然衰减，模仿人类的遗忘曲线
强化 — 经常访问或高度相关的记忆被加强
深度摘要 — 旧的详细记忆被整合为紧凑的摘要
知识图谱更新 — 新的关系和模式被整合到图中
向量存储维护 — TTL 驱逐、容量强制和缓存清理作为每个整合周期的一部分运行

整合系统自动检测 knox-ms 是否可用，仅在服务初始化时运行——无需手动配置。

8. 会话管理

每次 knox-ms 交互都通过由 Redis 支持的健壮会话系统进行管理。

会话功能

会话状态持久化 — 完整的会话状态存储在 Redis 中，带有自动过期
分布式锁 — 使用 Lua 脚本（SET key value NX EX ttl）的原子锁获取，防止跨多个进程的竞争条件
安全锁释放 — 释放前原子验证所有权，防止一个进程意外释放另一个进程的锁
锁延期 — 长时间运行的操作可以在所有权验证下延长其锁的 TTL
原子指标 — 会话指标（迭代计数、任务完成数等）使用原子 Redis 操作，防止并发下的更新丢失

检查点

自主引擎在执行期间按可配置的间隔创建检查点：

检查点通过存储集成持久化到 Knox 存储
它们捕获完整的循环状态、已完成的任务和当前计划
恢复时，执行可以从最后一个检查点恢复，而不是重新开始
检查点端点接受带有可配置限制的会话范围查询

9. 实时事件流

Knox-ms 通过服务器发送事件 (SSE) 提供对自主执行的完全可见性。

21 种事件类型

系统流式传输覆盖执行每个阶段的类型化事件：

目标优化事件
规划和任务创建事件
任务开始、进度和完成事件
自我评估和修正事件
修复操作事件
检查点创建事件
执行完成事件
以及更多

客户端集成

前端事件服务提供：

类型化事件处理 — 所有 21 种事件类型的强类型处理器
自动重连 — 连接丢失时使用指数退避加抖动
Last-Event-ID 支持 — 无缝重连与事件重播，确保不会遗漏事件
自动关闭 — 当收到 execution_completed 时连接自动关闭

10. 执行分析与历史

每次自主执行都被持久化，用于长期分析和审查。

记录的内容

每次执行存储：

执行记录 — 执行 ID、会话 ID、目标、优化后的目标、目标分解、循环状态、迭代次数、配置快照、最终响应、时间戳和取消信息
任务记录 — 单个任务 ID、计划 ID、类型、难度、状态、结果/错误、token 使用量和执行时间
聚合指标 — 跨 6 个类别的 14 个指标：性能、token、记忆、质量、弹性和延迟

分析 API

两个专用端点提供历史洞察：

执行历史 — 带状态筛选的分页查询，返回带有计算持续时间的执行记录
聚合分析 — 总执行数/成功执行数、成功率、总任务数、每个指标类型的平均值和每个任务类型的成功率

11. 中继集成与模型路由

Knox-ms 不使用单一模型——它通过 Knox 中继基础设施动态路由请求。

路由如何工作

通道选择 — 系统根据模型需求和可用性选择最佳可用通道
适配器管道 — 请求通过 通道选择 → 适配器 → 转换请求 → 执行请求 → 执行响应 流程
完整计费集成 — 每个中继调用都被正确计量和计费
动态模型切换 — 默认模型可以在运行时更改（例如，通过切换到更可靠模型的自愈操作）
优雅降级 — 如果主要中继路径失败，回退机制确保请求仍然完成

这意味着 knox-ms 可以使用你偏好的任何模型作为其底层引擎，同时用完整的记忆、规划和自愈基础设施包装它。

12. 存储架构

Knox-ms 使用双存储架构以实现持久性和性能。

Knox 存储（持久存储）

用户和会话范围的记忆文件
计划和任务存储
摘要和索引
向量嵌入（每用户存储在 knox-ms/vectors/user_{id}/store.json）
执行检查点
任务结果和执行摘要

Redis（快速状态）

会话状态和分布式锁
使用原生 Redis 集合（SADD、SMEMBERS、SREM）的集合数据结构
通过 Lua 脚本实现无竞争状态管理的原子操作
带原子递增的指标计数器
Redis 不可用时的本地缓存回退

13. 配置与管理控制

Knox-ms 的每个方面都可以通过经过验证的 API 端点进行配置。

自主引擎配置

控制执行循环行为：

max_iterations (1–1,000) — 最大自主循环迭代次数
max_execution_time_secs (10–86,400) — 执行时间限制
goal_confidence_threshold (0.0–1.0) — 认为目标已实现的最低置信度
max_healing_attempts (0–20) — 放弃前的最大自愈尝试次数
max_parallel_tasks (1–50) — 并行任务执行的并发限制
context_window_size (1K–10M) — 工作上下文窗口大小
checkpoint_interval (1–100) — 创建恢复检查点的频率

上下文配置

微调上下文管理：

active_context_window (1K–10M tokens)
compression_ratio (0.01–1.0)
hierarchy_levels (1–10)
retrieval_top_k (1–100)
relevance_threshold (0.0–1.0)
cross_session_max_age_days (1–3,650)
max_graph_entities (100–1M)

记忆配置

调整自动记忆管理器：

max_context_tokens (1K–10M)
summarize_trigger_tokens (100–1M)
knowledge_retention_threshold (0.0–1.0)
cleanup_threshold_days (1–3,650)
dedup_similarity_threshold (0.0–1.0)

用户偏好

个人用户可以自定义其自主执行体验：

最大迭代次数和时间限制
置信度阈值
检查点间隔
所有参数使用与管理员配置相同的范围进行验证

所有配置持久化到数据库并在启动时加载，因此你的设置在重启后仍然有效。

14. 前端体验

Knox-ms 前端提供丰富的交互式界面，用于与记忆系统交互和管理。

可视化架构

大脑记忆架构 — 记忆系统层次结构的可视化表示
Knox-MS 面板 — 在聊天和代码视图中均可用的主交互面板
向量搜索 UI — 搜索和探索项目的语义嵌入
会话管理器 — 查看、管理和切换启用会话
记忆浏览器 — 浏览记忆树、检查条目、查看分数和保留情况
任务系统 UI — 监控启用任务、查看计划并跟踪执行进度

自主设置

用户可以直接从 UI 配置其自主执行偏好：

设置在组件挂载时从后端加载
更改实时验证后保存到后端
提示通知确认保存成功或报告错误

本地化

全面的国际化支持，所有 knox-ms UI 元素都有 i18n 字符串。

15. 全栈类型安全

Knox-ms 从后端到前端维护端到端的类型安全。

自动类型同步

同步脚本自动从 Rust 后端生成 TypeScript 接口：

从 5 个后端源文件生成 19 个接口和 2 个联合类型
类型映射处理所有 Rust → TypeScript 的转换：String → string、Option<T> → T | null、Vec<T> → T[]、HashMap<K,V> → Record<K,V> 等
Rust 文档注释（///）保留为 TypeScript JSDoc（/** */）
脚本可配置——添加新类型只需向源列表添加条目

这确保了前端和后端在数据结构上永远不会不同步。

API 快速参考

模型标识

{
  "id": "knox/knox-ms",
  "object": "model",
  "owned_by": "KnoxChat",
  "context_length": -1
}

context_length 为 -1 表示无限 — 没有上限。

特殊参数

参数	类型	描述
`session_id`	string	用于记忆持久化的唯一会话标识符
`project_id`	string	用于向量嵌入检索的项目标识符
`enable_vector_search`	boolean	启用对项目内容的语义搜索（默认：`true`）
`vector_top_k`	integer	要检索的向量搜索候选数量（默认：`30`）
`rerank_threshold`	float	最低重排序分数阈值，0.0–1.0（默认：`0.5`）
`memory_mode`	string	记忆策略：`full`、`summarized`、`selective`
`include_reasoning`	boolean	在响应中包含任务规划推理
`verbosity`	string	输出详细程度：`minimal`、`normal`、`verbose`

35+ REST 端点

Knox-ms 公开全面的 REST API，涵盖：

自主执行管理（启动、取消、状态、历史、分析）
记忆操作（浏览、搜索、清理）
知识图谱查询
向量搜索和索引
会话管理
检查点操作（列表、恢复、删除，带有适当的会话范围）
配置管理（引擎、上下文、记忆、用户偏好）
实时事件流（SSE）

总结

Knox-MS 不是渐进式的改进——它是一种全新的 AI 交互方法。通过结合自主编排、类脑记忆、自愈基础设施、持续学习和生产级可靠性，knox-ms 提供了其他模型无法实现的能力：真正无限的上下文，以及随时间增长的智能。

每个子系统都已全面运行、经过实战检验，并准备好用于生产工作负载。无论你是使用 knox-ms 进行快速提问还是数月的开发项目，系统都会在每次交互中记忆、学习、适应和改进。

立即开始使用 Knox-MS — 选择 knox/knox-ms 作为你的模型，亲身体验无限上下文。

>>> Knox-MS 无限上下文定理