Knox 记忆系统 (knox-ms) 已达到完全生产就绪状态。从自主任务编排到自愈基础设施,每一个子系统现在都已上线并全面运行。本文全面介绍了 knox-ms 的每一项功能、能力和架构决策,正是这些使其成为第一个拥有真正无限、类脑记忆的 AI 模型。
什么是 Knox-MS?
Knox-MS 是一个自定义 AI 模型 (knox/knox-ms),通过模仿人脑的智能记忆管理系统,提供真正无限的上下文窗口长度。与其他所有受固定上下文窗口限制的大语言模型不同,knox-ms 通过精密的 计划 → 任务 → 记忆 架构编排多个底层模型,动态管理哪些内容需要记住、哪些需要总结、哪些可以遗忘。
记忆系统(大脑)= 核心智能
↓ 管理和更新
上下文缓存(LLM)= 工作记忆
↓ 增强于
向量嵌入与重排序(工具)= 信息检索
结果:任何规模的对话和项目——从简单问题到数月的开发工作——都不会丢失上下文或触及 token 限制。
1. 自主编排引擎
knox-ms 的核心是一个完全自主的执行循环,在每个阶段都由 LLM 推理驱动。
目标优化
当你发送请求时,系统不仅仅是回应——它会思考。自主核心通过 LLM 驱动的目标分析分解你的输入,将复杂请求拆解为结构化的目标层级。如果目标模糊不清,引擎会在继续执行前内部提出澄清性的子问题来细化目标。
多任务规划
一旦理解了目标,knox-ms 会生成一个包含 1 到 8 个并行或顺序任务的结构化执行计划。每个任务按以下维度分类:
- 类型 — 编码、分析、研究、通用
- 难度 — 简单、中等或困难
- 依赖关系 — 哪些任务必须在其他任务开始前完成
如果规划失败或生成了单一的整体任务,系统会优雅地回退到更简单的计划,而不是直接失败。
智能任务系统
任务不是静态的待办事项——它们是自适应执行单元,具有:
- 优先级计算 — 根据依赖关系、难度和目标相关性动态计算
- 依赖图 — 任务根据其关系进行排序和并行化
- 模型升级的自适应重试 — 如果任务在较简单的模型上失败,会自动使用更强大的模型重试
- 难度升级 — 失败或低质量的任务会以更高的难度等级重新排队
状态机循环执行
自主引擎作为状态机运行,具有定义的检查点。在每次迭代中:
- 执行下一批就绪任务
- 使用基于 LLM 的评估和置信度评分进行自我评估
- 如果质量低于阈值则应用修正
- 通过基于 LLM 的成就评估检查目标完成情况
- 如果目标评估识别出额外需要的任务则优化计划
- 创建恢复检查点
- 重复直到目标完全实现或达到迭代限制
这种架构意味着 knox-ms 可以自主处理复杂的多步骤目标——在每一步进行规划、执行、评估、修正和完成,无需人工干预。
2. 记忆系统 — 大脑,而非缓冲区
记忆系统是 knox-ms 与其他所有 AI 模型根本不同的地方。它提供持久的、有组织的、自我优化的记忆,其工作方式完全像人脑。
类人记忆管理
正如你的大脑不会存储每次对话的每个细节,knox-ms 通过持续的 CRUD 操作智能管理信息:
- 创建 (CREATE) — 新的会话、计划、任务记录和发现的模式会自动存储
- 读取 (READ) — 每次请求只加载相关的记忆到工作上下文中
- 更新 (UPDATE) — 任务结果、对话历史和上下文摘要持续优化
- 删除 (DELETE) — 临时文件、冗余信息和过期缓存条目自动清理
层次化记忆组织
记忆以树状文件系统组织,具有多层次的详细程度:
| 层级 | 保留 | 详细程度 |
|---|---|---|
| 近期(最后几轮对话) | 完整细节 | 包含所有上下文的完整对话 |
| 中期(当前会话) | 关键要点 | 决策、结果、重要交流 |
| 长期(历史) | 语义摘要 | 模式、已学概念、压缩知识 |
自动记忆管理器
自动记忆管理器处理每个记忆条目的生命周期:
- 评分 — 每个记忆条目获得一个相关性分数,随时间按照艾宾浩斯遗忘曲线衰减
- 保留策略 — 可配置的保留期限,自动清理低于分数阈值的条目
- 去重 — 检测并合并相似的记忆以防止膨胀
- 压缩 — 在保留关键信息的同时压缩较旧的记忆
- 可配置限制 — 最大条目数、记忆大小上限和清理间隔均可调整
摘要引擎
Knox-ms 包含提取式和结构化两种摘要功能:
- 提取式摘要从对话历史中提取最重要的句子和事实
- 结构化摘要使用 LLM 调用生成组织化的层次摘要,包含关键决策、结果和学到的模式
- 摘要与原始历史一起保存,既提供快速访问的概览,也在需要时提供完整细节
3. 上下文管理 — 设计上无限
上下文管理器是记忆系统与 LLM 工作上下文窗口之间的桥梁。
多级上下文
knox-ms 不是将所有内容都塞入单个提示词,而是维护多个上下文级别:
- 启用上下文 — 当前任务的即时工作集
- 会话上下文 — 更广泛的会话历史和目标
- 跨会话上下文 — 来自之前会话的知识和模式
- 全局知识 — 已学习的模式和永久知识库条目
智能压缩
当上下文超过阈值时,系统应用渐进式压缩:
- 较旧的对话轮次被摘要,而最近的轮次保持完整细节
- 压缩率可配置(从最小到激进)
- 在记忆压力大时,强制压缩作为自愈操作可用
上下文缓存优化
Knox-ms 组织记忆以最大化 LLM 提示缓存命中率:
- 稳定前缀 — 经常使用的上下文放置在一致的位置以启用缓存
- 动态后缀 — 每次请求变化的特定任务上下文附加在稳定部分之后
- 智能失效 — 缓存仅在记忆显著更新时才失效,而不是每次更改都失效
这意味着你在保持真正无限上下文深度的同时,还能获得提示缓存的成本和速度优势。
4. 知识图谱
Knox-ms 构建和维护一个持久知识图谱,捕捉概念、代码实体、决策和模式之间的关系。
图结构
- 知识节点 — 单独的事实、概念、代码模式或决策
- 关系 — 节点之间的类型化连接(依赖于、关联于、取代等)
- 相关性评分 — 每个节点和关系携带一个根据访问模式和近期性更新的分数
LLM 驱动的知识提取
当任务完成时,knox-ms 使用 LLM 调用执行结构化知识提取:
- 每段内容被分析以产生带有标题、内容、标签和相关性分数(0.0–1.0)的知识条目
- 提取的知识存储在图中,并可用于未来的上下文加载
- 系统随时间学习哪些类型的知识最有用
5. 向量嵌入与语义搜索
Knox-ms 包含完整的向量嵌入管道,用于对项目内容和对话历史进行语义搜索。
嵌入管道
- 索引 — 项目文件被分块(2048 个 token,带重叠)并使用 VoyageAI 模型嵌入(
voyage-3.5用于通用内容,voyage-code-3用于代码) - 存储 — 嵌入持久化到 Knox 存储中,按用户范围划分,首次访问时延迟加载
- 搜索 — 查询被嵌入并使用余弦相似度与存储的向量匹配
- 重排序 — 使用 VoyageAI 的
rerank-2.5模型对候选结果进行精细相关性重排序
弹性嵌入服务
嵌入管道为生产可靠性而构建:
- 指数退避重试 — 失败的 API 调用最多重试可配置的次数,使用指数延迟(500ms × 2^尝试次数)加上抖动以避免惊群效应
- 智能重试过滤 — 4xx 错误(429 速率限制除外)跳过重试,因为重试不会成功
- 断路器 — 连续 5 次失败后,系统打开断路器,快速失败 60 秒,防止级联故障。半开状态允许周期性探测,连续 3 次成功后断路器关闭
- 模拟回退 — 在开发环境中或当 VoyageAI 持续不可用时,确定性模拟嵌入确保系统继续运行
TTL 与容量管理
向量存储被主动维护:
- 基于 TTL 的驱逐 — 超过配置的最大年龄的向量会自动删除
- 容量强制 — 使用 LRU 驱逐(最旧优先)强制执行每用户向量限制
- 缓存清理 — 在维护周期中清除过期的嵌入缓存条目
- 存储持久化 — 任何变更后,清理后的状态异步持久化到 Knox 存储
6. 自愈基础设施
Knox-ms 不仅从错误中恢复——它通过 12 种不同的修复操作类型自我诊断和修复。
修复操作
| 操作 | 功能 |
|---|---|
| 切换模型 | 当前模型失败或表现不佳时路由到不同的底层模型 |
| 降级到更简单的模型 | 为困难任务降级到更简单、更可靠的模型 |
| 清除缓存 | 清除所有会话中的所有缓存上下文条目以解决过期数据问题 |
| 减少上下文大小 | 按可配置的百分比强制压缩缓存的上下文以保持在限制内 |
| 优化记忆 | 触发记忆清理,删除旧历史和过期记忆状态 |
| 调整批大小 | 修改运行时批处理参数 |
| 限流请求 | 在高负载场景下应用请求速率限制 |
| 优先缓存 | 调整缓存优先级以获得更好的命中率 |
| + 另外 4 种 | 针对边缘情况的额外运行时配置覆盖 |
自愈如何工作
当自主循环遇到错误时:
- 系统分析错误原因并选择最合适的修复操作类型
- 选定的操作委托给自管理器,执行真实的系统变更(而非模拟)
- 循环使用已应用的修复重试失败的操作
- 如果修复失败,系统可以升级到更激进的操作
所有修复操作都通过实际的子系统调用执行——模型切换更新中继的默认模型,缓存清除操作真实的上下文管理器,记忆清理针对实际的记忆存储运行。
优化引擎
除了错误恢复,自管理器还主动应用 8 种优化类型:
- 基于观察到的执行模式的性能优化
- 减少记忆和 token 使用的资源优化
- 提高输出准确性的质量优化
- 更快响应时间的延迟优化
7. 学习与模式识别
Knox-ms 从每次执行中学习,并随时间变得更加智能。
它学到了什么
- 目标分类 — 识别正在请求的目标类型并建议经过验证的方法
- 模型性能跟踪 — 记录哪些模型在哪些任务类型和难度级别上表现最佳
- 任务类型成功率 — 跟踪每个任务类别的成功/失败率以改进未来的规划
- 方法建议 — 在生成新计划之前,系统会查阅已学习的模式,并应用来自过去成功经验的模型偏好和方法提示
学习如何集成
在自主执行循环中:
- 规划之前 — 系统调用学习服务,根据当前目标获取方法建议,可能影响模型选择和任务分解
- 执行之后 — 成功或失败会与完整的执行数据(所有任务、使用的模型、token 数量、延迟)一起记录
- 随时间推移 — 系统建立一个执行模式数据库,持续提高规划质量
记忆整合
后台整合任务定期运行以加强长期记忆:
- 艾宾浩斯衰减 — 记忆条目的相关性随时间自然衰减,模仿人类的遗忘曲线
- 强化 — 经常访问或高度相关的记忆被加强
- 深度摘要 — 旧的详细记忆被整合为紧凑的摘要
- 知识图谱更新 — 新的关系和模式被整合到图中
- 向量存储维护 — TTL 驱逐、容量强制和缓存清理作为每个整合周期的一部分运行
整合系统自动检测 knox-ms 是否可用,仅在服务初始化时运行——无需手动配置。
8. 会话管理
每次 knox-ms 交互都通过由 Redis 支持的健壮会话系统进行管理。
会话功能
- 会话状态持久化 — 完整的会话状态存储在 Redis 中,带有自动过期
- 分布式锁 — 使用 Lua 脚本(
SET key value NX EX ttl)的原子锁获取,防止跨多个进程的竞争条件 - 安全锁释放 — 释放前原子验证所有权,防止一个进程意外释放另一个进程的锁
- 锁延期 — 长时间运行的操作可以在所有权验证下延长其锁的 TTL
- 原子指标 — 会话指标(迭代计数、任务完成数等)使用原子 Redis 操作,防止并发下的更新丢失
检查点
自主引擎在执行期间按可配置的间隔创建检查点:
- 检查点通过存储集成持久化到 Knox 存储
- 它们捕获完整的循环状态、已完成的任务和当前计划
- 恢复时,执行可以从最后一个检查点恢复,而不是重新开始
- 检查点端点接受带有可配置限制的会话范围查询
9. 实时事件流
Knox-ms 通过服务器发送事件 (SSE) 提供对自主执行的完全可见性。
21 种事件类型
系统流式传输覆盖执行每个阶段的类型化事件:
- 目标优化事件
- 规划和任务创建事件
- 任务开始、进度和完成事件
- 自我评估和修正事件
- 修复操作事件
- 检查点创建事件
- 执行完成事件
- 以及更多
客户端集成
前端事件服务提供:
- 类型化事件处理 — 所有 21 种事件类型的强类型处理器
- 自动重连 — 连接丢失时使用指数退避加抖动
Last-Event-ID支持 — 无缝重连与事件重播,确保不会遗漏事件- 自动关闭 — 当收到
execution_completed时连接自动关闭
10. 执行分析与历史
每次自主执行都被持久化,用于长期分析和审查。
记录的内容
每次执行存储:
- 执行记录 — 执行 ID、会话 ID、目标、优化后的目标、目标分解、循环状态、迭代次数、配置快照、最终响应、时间戳和取消信息
- 任务记录 — 单个任务 ID、计划 ID、类型、难度、状态、结果/错误、token 使用量和执行时间
- 聚合指标 — 跨 6 个类别的 14 个指标:性能、token、记忆、质量、弹性和延迟
分析 API
两个专用端点提供历史洞察:
- 执行历史 — 带状态筛选的分页查询,返回带有计算持续时间的执行记录
- 聚合分析 — 总执行数/成功执行数、成功率、总任务数、每个指标类型的平均值和每个任务类型的成功率
11. 中继集成与模型路由
Knox-ms 不使用单一模型——它通过 Knox 中继基础设施动态路由请求。
路由如何工作
- 通道选择 — 系统根据模型需求和可用性选择最佳可用通道
- 适配器管道 — 请求通过
通道选择 → 适配器 → 转换请求 → 执行请求 → 执行响应流程 - 完整计费集成 — 每个中继调用都被正确计量和计费
- 动态模型切换 — 默认模型可以在运行时更改(例如,通过切换到更可靠模型的自愈操作)
- 优雅降级 — 如果主要中继路径失败,回退机制确保请求仍然完成
这意味着 knox-ms 可以使用你偏好的任何模型作为其底层引擎,同时用完整的记忆、规划和自愈基础设施包装它。
12. 存储架构
Knox-ms 使用双存储架构以实现持久性和性能。
Knox 存储(持久存储)
- 用户和会话范围的记忆文件
- 计划和任务存储
- 摘要和索引
- 向量嵌入(每用户存储在
knox-ms/vectors/user_{id}/store.json) - 执行检查点
- 任务结果和执行摘要
Redis(快速状态)
- 会话状态和分布式锁
- 使用原生 Redis 集合(
SADD、SMEMBERS、SREM)的集合数据结构 - 通过 Lua 脚本实现无竞争状态管理的原子操作
- 带原子递增的指标计数器
- Redis 不可用时的本地缓存回退
13. 配置与管理控制
Knox-ms 的每个方面都可以通过经过验证的 API 端点进行配置。
自主引擎配置
控制执行循环行为:
max_iterations(1–1,000) — 最大自主循环迭代次数max_execution_time_secs(10–86,400) — 执行时间限制goal_confidence_threshold(0.0–1.0) — 认为目标已实现的最低置信度max_healing_attempts(0–20) — 放弃前的最大自愈尝试次数max_parallel_tasks(1–50) — 并行任务执行的并发限制context_window_size(1K–10M) — 工作上下文窗口大小checkpoint_interval(1–100) — 创建恢复检查点的频率
上下文配置
微调上下文管理:
active_context_window(1K–10M tokens)compression_ratio(0.01–1.0)hierarchy_levels(1–10)retrieval_top_k(1–100)relevance_threshold(0.0–1.0)cross_session_max_age_days(1–3,650)max_graph_entities(100–1M)
记忆配置
调整自动记忆管理器:
max_context_tokens(1K–10M)summarize_trigger_tokens(100–1M)knowledge_retention_threshold(0.0–1.0)cleanup_threshold_days(1–3,650)dedup_similarity_threshold(0.0–1.0)
用户偏好
个人用户可以自定义其自主执行体验:
- 最大迭代次数和时间限制
- 置信度阈值
- 检查点间隔
- 所有参数使用与管理员配置相同的范围进行验证
所有配置持久化到数据库并在启动时加载,因此你的设置在重启后仍然有效。
14. 前端体验
Knox-ms 前端提供丰富的交互式界面,用于与记忆系统交互和管理。
可视化架构
- 大脑记忆架构 — 记忆系统层次结构的可视化表示
- Knox-MS 面板 — 在聊天和代码视图中均可用的主交互面板
- 向量搜索 UI — 搜索和探索项目的语义嵌入
- 会话管理器 — 查看、管理和切换启用会话
- 记忆浏览器 — 浏览记忆树、检查条目、查看分数和保留情况
- 任务系统 UI — 监控启用任务、查看计划并跟踪执行进度
自主设置
用户可以直接从 UI 配置其自主执行偏好:
- 设置在组件挂载时从后端加载
- 更改实时验证后保存到后端
- 提示通知确认保存成功或报告错误
本地化
全面的国际化支持,所有 knox-ms UI 元素都有 i18n 字符串。
15. 全栈类型安全
Knox-ms 从后端到前端维护端到端的类型安全。
自动类型同步
同步脚本自动从 Rust 后端生成 TypeScript 接口:
- 从 5 个后端源文件生成 19 个接口和 2 个联合类型
- 类型映射处理所有 Rust → TypeScript 的转换:
String→string、Option<T>→T | null、Vec<T>→T[]、HashMap<K,V>→Record<K,V>等 - Rust 文档注释(
///)保留为 TypeScript JSDoc(/** */) - 脚本可配置——添加新类型只需向源列表添加条目
这确保了前端和后端在数据结构上永远不会不同步。
API 快速参考
模型标识
{
"id": "knox/knox-ms",
"object": "model",
"owned_by": "KnoxChat",
"context_length": -1
}
context_length 为 -1 表示无限 — 没有上限。
特殊参数
| 参数 | 类型 | 描述 |
|---|---|---|
session_id | string | 用于记忆持久化的唯一会话标识符 |
project_id | string | 用于向量嵌入检索的项目标识符 |
enable_vector_search | boolean | 启用对项目内容的语义搜索(默认:true) |
vector_top_k | integer | 要检索的向量搜索候选数量(默认:30) |
rerank_threshold | float | 最低重排序分数阈值,0.0–1.0(默认:0.5) |
memory_mode | string | 记忆策略:full、summarized、selective |
include_reasoning | boolean | 在响应中包含任务规划推理 |
verbosity | string | 输出详细程度:minimal、normal、verbose |
35+ REST 端点
Knox-ms 公开全面的 REST API,涵盖:
- 自主执行管理(启动、取消、状态、历史、分析)
- 记忆操作(浏览、搜索、清理)
- 知识图谱查询
- 向量搜索和索引
- 会话管理
- 检查点操作(列表、恢复、删除,带有适当的会话范围)
- 配置管理(引擎、上下文、记忆、用户偏好)
- 实时事件流(SSE)
总结
Knox-MS 不是渐进式的改进——它是一种全新的 AI 交互方法。通过结合自主编排、类脑记忆、自愈基础设施、持续学习和生产级可靠性,knox-ms 提供了其他模型无法实现的能力:真正无限的上下文,以及随时间增长的智能。
每个子系统都已全面运行、经过实战检验,并准备好用于生产工作负载。无论你是使用 knox-ms 进行快速提问还是数月的开发项目,系统都会在每次交互中记忆、学习、适应和改进。
立即开始使用 Knox-MS — 选择 knox/knox-ms 作为你的模型,亲身体验无限上下文。