KnowFlow v2.3.6：从"蒙眼开车"到"全程导航"，RAG 可观测性的一次跃升上线 RAG 系统三个月，业务方

上线 RAG 系统三个月，业务方天天抱怨"答非所问"。你翻遍日志，只看到一堆向量相似度分数，根本不知道哪个环节出了问题。是分块切坏了？还是检索权重没调对？抑或是重排模型把关键信息过滤掉了？

这不是个例。2026 年，企业级 RAG 已经从"能用"进入"好用"的深水区，可观测性成了最大的痛点。没有调试工具，优化 RAG 就像蒙着眼睛开车——你知道车在动，但不知道往哪开。

KnowFlow v2.3.6 这次更新，核心就干了一件事：把检索的每一步都拆开给你看。

检索调试：从"猜"到"看"

过去调试 RAG，基本靠猜：

但问题是，你根本不知道检索器到底召回了什么。是召回的内容本身就不对，还是重排阶段把好内容过滤掉了？

v2.3.6 新增的检索调试面板，把整个检索链路拆成两个阶段透明展示：

粗排阶段（Stage 1）：

精排阶段（Stage 2）：

检索调试面板

实际效果：某金融客户用这个功能排查"理财产品推荐不准"的问题，发现粗排召回了 128 个候选（来自 2 个知识库各 64 个），但精排后只保留了 16 个，且关键的"风险等级"信息被过滤掉了。调整重排权重后，准确率从 62% 提升到 89%。

说白了，这就是给 RAG 装了个"透视镜"——你终于能看清检索器在想什么了。

企业知识库动辄几万份文档，每份文档都有部门、密级、有效期等元数据。过去要批量修改元数据，只能一个个点开编辑，或者写脚本调 API。

v2.3.6 支持批量更新文档元数据，选中多个文档后，可以一次性修改：

这个功能看起来简单，但对企业用户来说是刚需。某制造业客户有 3 万份技术文档，每季度要更新一次"适用产品型号"标签。以前需要 2 个人花 3 天手工操作，现在 10 分钟搞定。

更重要的是，元数据更新后，检索时的过滤条件会立即生效。比如设置"仅检索 2025 年后的文档"，旧版本的技术规范就不会再干扰结果。

批量更新元数据

钉钉、企业微信之后，v2.3.6 补齐了飞书集成。

对于用飞书的团队来说，这意味着知识库可以直接在工作流中被调用：

某互联网公司的产品团队用飞书机器人接入了需求文档库，PRD 评审时直接在群里问"上个版本的用户画像是什么"，不用再翻文档了。

飞书接入

除了功能，v2.3.6 在底层做了不少优化：

Milvus 混合检索策略调整：

异常处理增强：

图片展示优化：

这些改进看起来不起眼，但都是从生产环境的真实问题中总结出来的。

v2.3.6 的核心思路很简单：让 RAG 系统从黑盒变成白盒。

检索调试面板不是为了炫技，而是为了让你在优化 RAG 时，不再靠猜、靠试，而是能看到数据、看到逻辑、看到问题在哪。

批量元数据管理和飞书集成，则是把企业级能力补齐——毕竟再好的技术，如果用起来麻烦，也很难落地。

下个版本，我们会继续在可观测性上深挖，包括检索链路的性能分析、成本追踪、A/B 测试框架等。目标是让 RAG 系统不仅"能用"，而且"好用"、"可控"。

本项目已开源到 v2.1.8 版本，有需要开发交流或商务合作的同学，可以关注公众号 KnowFlow 企业知识库 进行联系。

了解更多：