中石化"石小勘"落地实践:KnowFlow 如何为大型央企打造智能知识中枢
从 DeepSeek 到知识管理:一个央企的 AI 转型样本
2025 年初,DeepSeek 席卷全国。中国石油化工集团某研究院迅速响应,在院内部署了 DeepSeek-32B 本地模型。然而团队很快发现,通用大模型虽然"聪明",却对企业内部积累的数十年制度文件、科研资料、IT 运维手册一无所知。
"大模型只能回答模型里已有的知识内容,而对于院内自有的文档内容如何让它理解并回答用户问题?"——这正是研究院信息研发团队面临的核心挑战。
答案是 RAG(检索增强生成)。而承载这一技术路线落地的产品,正是 KnowFlow。
基于 KnowFlow,研究院打造了内部智能助手 "石小勘",覆盖找人、找系统、找制度、IT 运维、归档咨询、内控搜索、科研问答等八大场景,部署到门户供全院使用。测试结果显示:问答准确率达 90%,总结条理性极强,并能准确列出原始文档来源。
这不是一个实验室 Demo,而是一个已经在央企日常办公中跑通的生产系统。
KnowFlow 为企业级场景解决了什么?
一、多格式文档深度解析——让 PPT、PDF、Word 都变成可检索的知识
企业知识库建设的第一道门槛是文档解析。中石化的知识资产涵盖制度文件(PDF/Word)、科研报告(PDF)、培训材料(PPT)、数据表格(Excel)等多种格式。传统的文本提取工具往往丢失排版结构,表格变成乱码,图片直接丢弃。
KnowFlow 内置两款专业级 PDF 解析引擎——MinerU(行级精确坐标,支持公式识别,专业级表格解析)和 PaddleOCR(高速通用解析),并提供四种智能分块策略:
-
• Smart 分块:基于 AST 语义分析,保证表格、代码块完整性
-
• Title 分块:严格按标题层级划分,完整保留文档结构
-
• Parent-Child 分块:双层嵌套架构——子块精确检索,父块提供完整上下文
-
• Regex 分块:支持自定义正则表达式,适配特殊格式文档
对于 PPT 文件,系统自动转换并提取结构化内容,包括文本、表格和嵌入图片,确保培训材料、汇报 PPT 等企业高频文档类型都能被准确解析和检索。
二、图片识别与以文搜图——让视觉内容不再是检索盲区
科研报告中的地质构造图、工艺流程图、实验数据图表,往往承载着最核心的信息。传统 RAG 系统对图片视而不见,KnowFlow 则通过 Vision Enhancement 技术彻底解决这一痛点:
-
• 文档解析完成后,系统自动扫描所有 chunk 中的图片引用
-
• 批量调用 VLM(视觉语言模型)为每张图片生成语义描述
-
• 结合图片周围的文本上下文,生成更准确的描述内容
-
• 描述文本与原文一起参与向量化索引,实现"以文搜图"
这意味着,当研究人员搜索"马努依盆地构造演化"时,不仅能找到文字描述,还能直接定位到相关的地质构造示意图——这在传统搜索引擎中是不可能实现的。
三、Dify 生态对接与引用原文——打通企业 AI 工作流
企业的 AI 应用不会是一个孤岛。石小勘的成功离不开与企业现有 IT 架构的无缝集成。KnowFlow 提供标准化的企业微信、钉钉、Dify 检索接口,支持:
-
• 引用原文回溯:检索结果携带完整的文档来源、页码、原文片段,用户可一键跳转查看原始文档
-
• 图片外链:通过
MINIO_EXTERNAL_URL配置,自动将内部存储路径转换为外部可访问的图片链接,确保 Dify 等外部系统能正确展示图文混排内容 -
• 元数据过滤:支持按知识库、文档类型、标签等维度过滤检索结果
-
• 知识图谱增强:结合 GraphRAG 能力,返回结构化的知识实体和关系
石小勘正是通过这一能力,实现了"回答问题的同时准确列出原始文档"的用户体验——这对于制度查询、科研引用等需要追溯依据的场景至关重要。
四、针对具体文件问答——不只是知识库级别的检索
传统 RAG 系统只能在整个知识库范围内检索,当用户需要针对某份特定文件深入问答时,往往力不从心。KnowFlow 的 DeepRead Agent 采用 locate-then-read 策略,实现了文档级的深度阅读:
-
• 结构化导航:预构建文档目录(TOC),Agent 可以按章节、按页码精准定位
-
• 多轮推理:通过 retrieve → read_section → read_page 的工具链,逐步深入文档细节
-
• 并发执行:同一轮内多个工具调用通过异步并发执行,大幅降低响应延迟
-
• 思考过程可视:前端实时展示 Agent 的推理过程,用户可以看到"它在读哪一段、为什么要读"
这一能力使得石小勘不仅能回答"差旅标准是什么"这类通用问题,还能针对某份具体的制度文件进行深度问答——"这份文件第三章关于三亚旺季住宿标准的上浮比例是多少?"
五、分布式部署——支撑央企级并发与可用性
石小勘当前面临并发的瓶颈,这正是下一阶段的重点改进方向。KnowFlow 的微服务架构天然支持分布式部署:
-
• 计算层(解析、Embedding、推理)与存储层(MySQL、Elasticsearch/Milvus、MinIO)独立扩展
-
• 任务队列架构支持多 Worker 并行处理文档解析
-
• 检索服务支持多副本部署,轻松应对全院级并发访问
-
• 混合检索架构(BM25 关键词 + 向量语义)通过统一分词保证中文检索质量
为什么是 KnowFlow?
石小勘的落地验证了一个核心判断:企业级 AI 知识管理,不是"接个大模型 API"就能解决的。它需要深度文档理解、精准中文检索、灵活的分块策略、可追溯的引用机制、以及与企业 IT 生态的无缝集成。
KnowFlow 不是一个需要从零搭建的框架,而是一个开箱即用、深度可定制的企业级 RAG 引擎。从中石化研究院的实践来看,一个小团队在有限的硬件资源下,就能快速搭建出覆盖八大业务场景、准确率 90% 的智能知识助手。
当研究院将"石小勘"从行政管理推广到科研问答领域,当越来越多的制度文件、科研成果、期刊文献被纳入知识库——这正是 KnowFlow 为企业打造的愿景:让每一份企业文档都成为可对话、可检索、可引用的智能知识资产。
如果您的企业也面临知识散落在文件服务器、SharePoint、OA 系统中难以利用的挑战,欢迎关注公众号KnowFlow 企业知识库联系我们了解 KnowFlow 企业级解决方案。