Knox记忆系统 — 全功能深度解析

0 阅读19分钟

Knox 记忆系统 (knox-ms) 已达到完全生产就绪状态。从自主任务编排到自愈基础设施,每一个子系统现在都已上线并全面运行。本文全面介绍了 knox-ms 的每一项功能、能力和架构决策,正是这些使其成为第一个拥有真正无限、类脑记忆的 AI 模型。

什么是 Knox-MS?

Knox-MS 是一个自定义 AI 模型 (knox/knox-ms),通过模仿人脑的智能记忆管理系统,提供真正无限的上下文窗口长度。与其他所有受固定上下文窗口限制的大语言模型不同,knox-ms 通过精密的 计划 → 任务 → 记忆 架构编排多个底层模型,动态管理哪些内容需要记住、哪些需要总结、哪些可以遗忘。

记忆系统(大脑)= 核心智能
  ↓ 管理和更新
上下文缓存(LLM)= 工作记忆
  ↓ 增强于
向量嵌入与重排序(工具)= 信息检索

结果:任何规模的对话和项目——从简单问题到数月的开发工作——都不会丢失上下文或触及 token 限制。

1. 自主编排引擎

knox-ms 的核心是一个完全自主的执行循环,在每个阶段都由 LLM 推理驱动。

目标优化

当你发送请求时,系统不仅仅是回应——它会思考。自主核心通过 LLM 驱动的目标分析分解你的输入,将复杂请求拆解为结构化的目标层级。如果目标模糊不清,引擎会在继续执行前内部提出澄清性的子问题来细化目标。

多任务规划

一旦理解了目标,knox-ms 会生成一个包含 1 到 8 个并行或顺序任务的结构化执行计划。每个任务按以下维度分类:

  • 类型 — 编码、分析、研究、通用
  • 难度 — 简单、中等或困难
  • 依赖关系 — 哪些任务必须在其他任务开始前完成

如果规划失败或生成了单一的整体任务,系统会优雅地回退到更简单的计划,而不是直接失败。

智能任务系统

任务不是静态的待办事项——它们是自适应执行单元,具有:

  • 优先级计算 — 根据依赖关系、难度和目标相关性动态计算
  • 依赖图 — 任务根据其关系进行排序和并行化
  • 模型升级的自适应重试 — 如果任务在较简单的模型上失败,会自动使用更强大的模型重试
  • 难度升级 — 失败或低质量的任务会以更高的难度等级重新排队

状态机循环执行

自主引擎作为状态机运行,具有定义的检查点。在每次迭代中:

  1. 执行下一批就绪任务
  2. 使用基于 LLM 的评估和置信度评分进行自我评估
  3. 如果质量低于阈值则应用修正
  4. 通过基于 LLM 的成就评估检查目标完成情况
  5. 如果目标评估识别出额外需要的任务则优化计划
  6. 创建恢复检查点
  7. 重复直到目标完全实现或达到迭代限制

这种架构意味着 knox-ms 可以自主处理复杂的多步骤目标——在每一步进行规划、执行、评估、修正和完成,无需人工干预。

2. 记忆系统 — 大脑,而非缓冲区

记忆系统是 knox-ms 与其他所有 AI 模型根本不同的地方。它提供持久的、有组织的、自我优化的记忆,其工作方式完全像人脑。

类人记忆管理

正如你的大脑不会存储每次对话的每个细节,knox-ms 通过持续的 CRUD 操作智能管理信息:

  • 创建 (CREATE) — 新的会话、计划、任务记录和发现的模式会自动存储
  • 读取 (READ) — 每次请求只加载相关的记忆到工作上下文中
  • 更新 (UPDATE) — 任务结果、对话历史和上下文摘要持续优化
  • 删除 (DELETE) — 临时文件、冗余信息和过期缓存条目自动清理

层次化记忆组织

记忆以树状文件系统组织,具有多层次的详细程度:

层级保留详细程度
近期(最后几轮对话)完整细节包含所有上下文的完整对话
中期(当前会话)关键要点决策、结果、重要交流
长期(历史)语义摘要模式、已学概念、压缩知识

自动记忆管理器

自动记忆管理器处理每个记忆条目的生命周期:

  • 评分 — 每个记忆条目获得一个相关性分数,随时间按照艾宾浩斯遗忘曲线衰减
  • 保留策略 — 可配置的保留期限,自动清理低于分数阈值的条目
  • 去重 — 检测并合并相似的记忆以防止膨胀
  • 压缩 — 在保留关键信息的同时压缩较旧的记忆
  • 可配置限制 — 最大条目数、记忆大小上限和清理间隔均可调整

摘要引擎

Knox-ms 包含提取式结构化两种摘要功能:

  • 提取式摘要从对话历史中提取最重要的句子和事实
  • 结构化摘要使用 LLM 调用生成组织化的层次摘要,包含关键决策、结果和学到的模式
  • 摘要与原始历史一起保存,既提供快速访问的概览,也在需要时提供完整细节

3. 上下文管理 — 设计上无限

上下文管理器是记忆系统与 LLM 工作上下文窗口之间的桥梁。

多级上下文

knox-ms 不是将所有内容都塞入单个提示词,而是维护多个上下文级别

  • 启用上下文 — 当前任务的即时工作集
  • 会话上下文 — 更广泛的会话历史和目标
  • 跨会话上下文 — 来自之前会话的知识和模式
  • 全局知识 — 已学习的模式和永久知识库条目

智能压缩

当上下文超过阈值时,系统应用渐进式压缩

  • 较旧的对话轮次被摘要,而最近的轮次保持完整细节
  • 压缩率可配置(从最小到激进)
  • 在记忆压力大时,强制压缩作为自愈操作可用

上下文缓存优化

Knox-ms 组织记忆以最大化 LLM 提示缓存命中率

  1. 稳定前缀 — 经常使用的上下文放置在一致的位置以启用缓存
  2. 动态后缀 — 每次请求变化的特定任务上下文附加在稳定部分之后
  3. 智能失效 — 缓存仅在记忆显著更新时才失效,而不是每次更改都失效

这意味着你在保持真正无限上下文深度的同时,还能获得提示缓存的成本和速度优势。

4. 知识图谱

Knox-ms 构建和维护一个持久知识图谱,捕捉概念、代码实体、决策和模式之间的关系。

图结构

  • 知识节点 — 单独的事实、概念、代码模式或决策
  • 关系 — 节点之间的类型化连接(依赖于、关联于、取代等)
  • 相关性评分 — 每个节点和关系携带一个根据访问模式和近期性更新的分数

LLM 驱动的知识提取

当任务完成时,knox-ms 使用 LLM 调用执行结构化知识提取

  • 每段内容被分析以产生带有标题内容标签相关性分数(0.0–1.0)的知识条目
  • 提取的知识存储在图中,并可用于未来的上下文加载
  • 系统随时间学习哪些类型的知识最有用

5. 向量嵌入与语义搜索

Knox-ms 包含完整的向量嵌入管道,用于对项目内容和对话历史进行语义搜索。

嵌入管道

  1. 索引 — 项目文件被分块(2048 个 token,带重叠)并使用 VoyageAI 模型嵌入(voyage-3.5 用于通用内容,voyage-code-3 用于代码)
  2. 存储 — 嵌入持久化到 Knox 存储中,按用户范围划分,首次访问时延迟加载
  3. 搜索 — 查询被嵌入并使用余弦相似度与存储的向量匹配
  4. 重排序 — 使用 VoyageAI 的 rerank-2.5 模型对候选结果进行精细相关性重排序

弹性嵌入服务

嵌入管道为生产可靠性而构建:

  • 指数退避重试 — 失败的 API 调用最多重试可配置的次数,使用指数延迟(500ms × 2^尝试次数)加上抖动以避免惊群效应
  • 智能重试过滤 — 4xx 错误(429 速率限制除外)跳过重试,因为重试不会成功
  • 断路器 — 连续 5 次失败后,系统打开断路器,快速失败 60 秒,防止级联故障。半开状态允许周期性探测,连续 3 次成功后断路器关闭
  • 模拟回退 — 在开发环境中或当 VoyageAI 持续不可用时,确定性模拟嵌入确保系统继续运行

TTL 与容量管理

向量存储被主动维护:

  • 基于 TTL 的驱逐 — 超过配置的最大年龄的向量会自动删除
  • 容量强制 — 使用 LRU 驱逐(最旧优先)强制执行每用户向量限制
  • 缓存清理 — 在维护周期中清除过期的嵌入缓存条目
  • 存储持久化 — 任何变更后,清理后的状态异步持久化到 Knox 存储

6. 自愈基础设施

Knox-ms 不仅从错误中恢复——它通过 12 种不同的修复操作类型自我诊断和修复

修复操作

操作功能
切换模型当前模型失败或表现不佳时路由到不同的底层模型
降级到更简单的模型为困难任务降级到更简单、更可靠的模型
清除缓存清除所有会话中的所有缓存上下文条目以解决过期数据问题
减少上下文大小按可配置的百分比强制压缩缓存的上下文以保持在限制内
优化记忆触发记忆清理,删除旧历史和过期记忆状态
调整批大小修改运行时批处理参数
限流请求在高负载场景下应用请求速率限制
优先缓存调整缓存优先级以获得更好的命中率
+ 另外 4 种针对边缘情况的额外运行时配置覆盖

自愈如何工作

当自主循环遇到错误时:

  1. 系统分析错误原因并选择最合适的修复操作类型
  2. 选定的操作委托给自管理器,执行真实的系统变更(而非模拟)
  3. 循环使用已应用的修复重试失败的操作
  4. 如果修复失败,系统可以升级到更激进的操作

所有修复操作都通过实际的子系统调用执行——模型切换更新中继的默认模型,缓存清除操作真实的上下文管理器,记忆清理针对实际的记忆存储运行。

优化引擎

除了错误恢复,自管理器还主动应用 8 种优化类型

  • 基于观察到的执行模式的性能优化
  • 减少记忆和 token 使用的资源优化
  • 提高输出准确性的质量优化
  • 更快响应时间的延迟优化

7. 学习与模式识别

Knox-ms 从每次执行中学习,并随时间变得更加智能。

它学到了什么

  • 目标分类 — 识别正在请求的目标类型并建议经过验证的方法
  • 模型性能跟踪 — 记录哪些模型在哪些任务类型和难度级别上表现最佳
  • 任务类型成功率 — 跟踪每个任务类别的成功/失败率以改进未来的规划
  • 方法建议 — 在生成新计划之前,系统会查阅已学习的模式,并应用来自过去成功经验的模型偏好和方法提示

学习如何集成

在自主执行循环中:

  • 规划之前 — 系统调用学习服务,根据当前目标获取方法建议,可能影响模型选择和任务分解
  • 执行之后 — 成功或失败会与完整的执行数据(所有任务、使用的模型、token 数量、延迟)一起记录
  • 随时间推移 — 系统建立一个执行模式数据库,持续提高规划质量

记忆整合

后台整合任务定期运行以加强长期记忆:

  • 艾宾浩斯衰减 — 记忆条目的相关性随时间自然衰减,模仿人类的遗忘曲线
  • 强化 — 经常访问或高度相关的记忆被加强
  • 深度摘要 — 旧的详细记忆被整合为紧凑的摘要
  • 知识图谱更新 — 新的关系和模式被整合到图中
  • 向量存储维护 — TTL 驱逐、容量强制和缓存清理作为每个整合周期的一部分运行

整合系统自动检测 knox-ms 是否可用,仅在服务初始化时运行——无需手动配置。

8. 会话管理

每次 knox-ms 交互都通过由 Redis 支持的健壮会话系统进行管理。

会话功能

  • 会话状态持久化 — 完整的会话状态存储在 Redis 中,带有自动过期
  • 分布式锁 — 使用 Lua 脚本(SET key value NX EX ttl)的原子锁获取,防止跨多个进程的竞争条件
  • 安全锁释放 — 释放前原子验证所有权,防止一个进程意外释放另一个进程的锁
  • 锁延期 — 长时间运行的操作可以在所有权验证下延长其锁的 TTL
  • 原子指标 — 会话指标(迭代计数、任务完成数等)使用原子 Redis 操作,防止并发下的更新丢失

检查点

自主引擎在执行期间按可配置的间隔创建检查点:

  • 检查点通过存储集成持久化到 Knox 存储
  • 它们捕获完整的循环状态、已完成的任务和当前计划
  • 恢复时,执行可以从最后一个检查点恢复,而不是重新开始
  • 检查点端点接受带有可配置限制的会话范围查询

9. 实时事件流

Knox-ms 通过服务器发送事件 (SSE) 提供对自主执行的完全可见性。

21 种事件类型

系统流式传输覆盖执行每个阶段的类型化事件:

  • 目标优化事件
  • 规划和任务创建事件
  • 任务开始、进度和完成事件
  • 自我评估和修正事件
  • 修复操作事件
  • 检查点创建事件
  • 执行完成事件
  • 以及更多

客户端集成

前端事件服务提供:

  • 类型化事件处理 — 所有 21 种事件类型的强类型处理器
  • 自动重连 — 连接丢失时使用指数退避加抖动
  • Last-Event-ID 支持 — 无缝重连与事件重播,确保不会遗漏事件
  • 自动关闭 — 当收到 execution_completed 时连接自动关闭

10. 执行分析与历史

每次自主执行都被持久化,用于长期分析和审查。

记录的内容

每次执行存储:

  • 执行记录 — 执行 ID、会话 ID、目标、优化后的目标、目标分解、循环状态、迭代次数、配置快照、最终响应、时间戳和取消信息
  • 任务记录 — 单个任务 ID、计划 ID、类型、难度、状态、结果/错误、token 使用量和执行时间
  • 聚合指标 — 跨 6 个类别的 14 个指标:性能、token、记忆、质量、弹性和延迟

分析 API

两个专用端点提供历史洞察:

  • 执行历史 — 带状态筛选的分页查询,返回带有计算持续时间的执行记录
  • 聚合分析 — 总执行数/成功执行数、成功率、总任务数、每个指标类型的平均值和每个任务类型的成功率

11. 中继集成与模型路由

Knox-ms 不使用单一模型——它通过 Knox 中继基础设施动态路由请求。

路由如何工作

  1. 通道选择 — 系统根据模型需求和可用性选择最佳可用通道
  2. 适配器管道 — 请求通过 通道选择 → 适配器 → 转换请求 → 执行请求 → 执行响应 流程
  3. 完整计费集成 — 每个中继调用都被正确计量和计费
  4. 动态模型切换 — 默认模型可以在运行时更改(例如,通过切换到更可靠模型的自愈操作)
  5. 优雅降级 — 如果主要中继路径失败,回退机制确保请求仍然完成

这意味着 knox-ms 可以使用你偏好的任何模型作为其底层引擎,同时用完整的记忆、规划和自愈基础设施包装它。

12. 存储架构

Knox-ms 使用双存储架构以实现持久性和性能。

Knox 存储(持久存储)

  • 用户和会话范围的记忆文件
  • 计划和任务存储
  • 摘要和索引
  • 向量嵌入(每用户存储在 knox-ms/vectors/user_{id}/store.json
  • 执行检查点
  • 任务结果和执行摘要

Redis(快速状态)

  • 会话状态和分布式锁
  • 使用原生 Redis 集合(SADDSMEMBERSSREM)的集合数据结构
  • 通过 Lua 脚本实现无竞争状态管理的原子操作
  • 带原子递增的指标计数器
  • Redis 不可用时的本地缓存回退

13. 配置与管理控制

Knox-ms 的每个方面都可以通过经过验证的 API 端点进行配置。

自主引擎配置

控制执行循环行为:

  • max_iterations (1–1,000) — 最大自主循环迭代次数
  • max_execution_time_secs (10–86,400) — 执行时间限制
  • goal_confidence_threshold (0.0–1.0) — 认为目标已实现的最低置信度
  • max_healing_attempts (0–20) — 放弃前的最大自愈尝试次数
  • max_parallel_tasks (1–50) — 并行任务执行的并发限制
  • context_window_size (1K–10M) — 工作上下文窗口大小
  • checkpoint_interval (1–100) — 创建恢复检查点的频率

上下文配置

微调上下文管理:

  • active_context_window (1K–10M tokens)
  • compression_ratio (0.01–1.0)
  • hierarchy_levels (1–10)
  • retrieval_top_k (1–100)
  • relevance_threshold (0.0–1.0)
  • cross_session_max_age_days (1–3,650)
  • max_graph_entities (100–1M)

记忆配置

调整自动记忆管理器:

  • max_context_tokens (1K–10M)
  • summarize_trigger_tokens (100–1M)
  • knowledge_retention_threshold (0.0–1.0)
  • cleanup_threshold_days (1–3,650)
  • dedup_similarity_threshold (0.0–1.0)

用户偏好

个人用户可以自定义其自主执行体验:

  • 最大迭代次数和时间限制
  • 置信度阈值
  • 检查点间隔
  • 所有参数使用与管理员配置相同的范围进行验证

所有配置持久化到数据库并在启动时加载,因此你的设置在重启后仍然有效。

14. 前端体验

Knox-ms 前端提供丰富的交互式界面,用于与记忆系统交互和管理。

可视化架构

  • 大脑记忆架构 — 记忆系统层次结构的可视化表示
  • Knox-MS 面板 — 在聊天和代码视图中均可用的主交互面板
  • 向量搜索 UI — 搜索和探索项目的语义嵌入
  • 会话管理器 — 查看、管理和切换启用会话
  • 记忆浏览器 — 浏览记忆树、检查条目、查看分数和保留情况
  • 任务系统 UI — 监控启用任务、查看计划并跟踪执行进度

自主设置

用户可以直接从 UI 配置其自主执行偏好:

  • 设置在组件挂载时从后端加载
  • 更改实时验证后保存到后端
  • 提示通知确认保存成功或报告错误

本地化

全面的国际化支持,所有 knox-ms UI 元素都有 i18n 字符串。

15. 全栈类型安全

Knox-ms 从后端到前端维护端到端的类型安全

自动类型同步

同步脚本自动从 Rust 后端生成 TypeScript 接口:

  • 从 5 个后端源文件生成 19 个接口和 2 个联合类型
  • 类型映射处理所有 Rust → TypeScript 的转换:StringstringOption<T>T | nullVec<T>T[]HashMap<K,V>Record<K,V>
  • Rust 文档注释(///)保留为 TypeScript JSDoc(/** */
  • 脚本可配置——添加新类型只需向源列表添加条目

这确保了前端和后端在数据结构上永远不会不同步。

API 快速参考

模型标识

{
  "id": "knox/knox-ms",
  "object": "model",
  "owned_by": "KnoxChat",
  "context_length": -1
}

context_length-1 表示无限 — 没有上限。

特殊参数

参数类型描述
session_idstring用于记忆持久化的唯一会话标识符
project_idstring用于向量嵌入检索的项目标识符
enable_vector_searchboolean启用对项目内容的语义搜索(默认:true
vector_top_kinteger要检索的向量搜索候选数量(默认:30
rerank_thresholdfloat最低重排序分数阈值,0.0–1.0(默认:0.5
memory_modestring记忆策略:fullsummarizedselective
include_reasoningboolean在响应中包含任务规划推理
verbositystring输出详细程度:minimalnormalverbose

35+ REST 端点

Knox-ms 公开全面的 REST API,涵盖:

  • 自主执行管理(启动、取消、状态、历史、分析)
  • 记忆操作(浏览、搜索、清理)
  • 知识图谱查询
  • 向量搜索和索引
  • 会话管理
  • 检查点操作(列表、恢复、删除,带有适当的会话范围)
  • 配置管理(引擎、上下文、记忆、用户偏好)
  • 实时事件流(SSE)

总结

Knox-MS 不是渐进式的改进——它是一种全新的 AI 交互方法。通过结合自主编排、类脑记忆、自愈基础设施、持续学习和生产级可靠性,knox-ms 提供了其他模型无法实现的能力:真正无限的上下文,以及随时间增长的智能

每个子系统都已全面运行、经过实战检验,并准备好用于生产工作负载。无论你是使用 knox-ms 进行快速提问还是数月的开发项目,系统都会在每次交互中记忆、学习、适应和改进。

立即开始使用 Knox-MS — 选择 knox/knox-ms 作为你的模型,亲身体验无限上下文。

>>> Knox-MS 无限上下文定理