一、一个真实的场景
上周,一个做HR系统的朋友找我帮忙。
他们公司有300多份内部文档——员工手册、报销流程、技术规范、产品说明。新人入职要花两周熟悉这些资料;客服回复客户问题,经常在不同文档间来回切换。
他问我:“有没有办法把这些文档变成一个能问答、能溯源的知识库?”
我说:有,10分钟就能搭一个。
他半信半疑。
然后我用一个下午,真的搭出来了。
这篇文章就是那次搭建的完整流程记录,从文档上传到段落溯源,每一步都有操作说明。
二、整体流程
搭建一个企业私有知识库,只需要五步:
Text
文档上传 → 文档解析 → 智能分块 → 向量化存储 → 问答与溯源
下面逐一说明。
三、第一步:文档上传
首先,把所有需要纳入知识库的文档收集到一个文件夹里。
支持的文件格式:
- PDF(最常见)
- Word(.docx)
- Markdown(.md)
- TXT纯文本
操作建议:
- 文档命名要清晰(如“员工手册_2026版.pdf”)
- 同类文档放在一起
- 建议从5-10份文档开始测试
这一步大约需要1-2分钟。
四、第二步:文档解析
文档上传后,系统需要读取文件内容。
这一步的核心是:保留文档的元数据。
什么是元数据?就是“这份文档叫什么名字”“这段文字来自第几页”。这些信息在后面做溯源时至关重要。
不同格式的解析方式不同:
- PDF:按页提取文字,保留页码
- Word:按段落提取,保留章节信息
- Markdown:按标题结构提取,保留层级
这一步由系统自动完成,不需要人工操作。
五、第三步:智能分块
文档解析完成后,需要把长文档切分成小的文本块。
为什么要切分?
- 大模型有上下文长度限制(通常几千到几万字)
- 小块检索更精准,不会被无关内容干扰
分块的核心参数:
| 参数 | 说明 | 推荐值 |
|---|---|---|
| chunk_size | 每块的最大字符数 | 300-800 |
| chunk_overlap | 块与块之间的重叠字符数 | 50-100 |
不同文档类型的推荐值:
| 文档类型 | chunk_size | chunk_overlap |
|---|---|---|
| 员工手册/长文档 | 500 | 50 |
| 技术规范/合同 | 800 | 80 |
| FAQ/短文档 | 300 | 30 |
分块完成后,每个文本块都会携带来源信息(来自哪个文档、第几页),为溯源做准备。
六、第四步:向量化存储
分块完成后,需要把文本块转换成向量。
什么是向量?简单说,就是把一段文字转换成一串数字(比如768个浮点数)。这样计算机就可以计算“哪段文字和用户的问题最相似”。
这一步的作用:
- 用户提问时,系统把问题也转成向量
- 计算问题向量和所有文本块向量的相似度
- 找出最相关的几个文本块
向量化完成后,所有向量会被存入向量数据库,用于后续检索。
七、第五步:问答与溯源
知识库搭建完成后,就可以开始问答了。
普通问答(无溯源):
问:“年假有多少天?”
答:“入职满1年享5天年假。”
员工不知道这个答案是从哪来的,只能选择相信或不相信。
带溯源的问答:
问:“年假有多少天?”
答:“入职满1年享5天年假,满3年享10天,满5年享15天。”
溯源信息:
- 来源:《员工手册》第2页
- 原文片段:“年假:入职满1年享5天,满3年享10天,满5年享15天。”
员工可以:
- 看到答案来自哪份文档
- 看到原文具体内容
- 自己去核实
这就是段落溯源的核心价值——让AI的每一个答案都可验证。
八、为什么溯源对企业很重要?
没有溯源的知识库,存在三个问题:
| 问题 | 说明 | 后果 |
|---|---|---|
| 不可信 | 用户不知道答案从哪来 | 不敢直接用,还得自己查 |
| 不可追 | 答案错了不知道原因 | 无法修正,错误持续 |
| 不可审 | 无法追溯AI的判断依据 | 合规审计过不了 |
有溯源的知识库,做到了三点:
- 可信:答案有出处,用户可以验证
- 可追:答案错了,可以定位到哪份文档写错了
- 可审:每一次问答都有记录,可追溯
九、什么时候必须要有溯源?
| 场景 | 是否需要溯源 | 原因 |
|---|---|---|
| 法务合同审查 | 必须 | 需要依据条款 |
| 财务报销审核 | 必须 | 需要制度依据 |
| 客服回复客户 | 必须 | 需要公司政策 |
| 技术方案选型 | 建议 | 需要文档支撑 |
| 个人学习笔记 | 可选 | 自己知道就行 |
十、延伸阅读
本文介绍的是企业私有知识库的搭建流程和段落溯源原理。如果你希望开箱即用,不需要自己写代码实现上述流程,可以了解下 ZGI 的知识库模块。ZGI内置了文档解析、智能分块、向量存储、段落溯源等完整能力,感兴趣可以去 zgi.cn 看看。
写在最后
10分钟搭建一个企业私有知识库,核心流程就五步:
- 上传文档(PDF、Word、Markdown)
- 文档解析(保留元数据)
- 智能分块(300-800字符/块)
- 向量化存储(把文字转成向量)
- 问答与溯源(答案可追溯来源)
希望这篇文章能帮你快速理解企业知识库的搭建逻辑。
你的知识库,是在“给答案”,还是在“给证据”?