一、要解决什么
目标:知识库秒上云 —— 文档上传与管理入门。
完成后你将能够:
-
在 Dify 新建知识库 并批量导入本地文档
-
完成 文本分段、索引与检索 配置,让文档进入可用状态
-
对文档做 搜索、分段编辑、启停与权限 等日常管理
二、前置条件
| 项目 | 说明 |
| --- | --- |
| Dify 可用 | 已登录控制台,能进入顶部 「知识库」 |
| 文档准备 | 支持 PDF、DOCX、Markdown、TXT 等(界面上还支持 HTML、XLSX、CSV 等,单文件 ≤ 15MB) |
| 模型已配置 | 高质量 索引需已接入 Embedding 模型(如 BAAI/bge-m3) |
| 权限 | 账号具备知识库创建与文档操作权限 |
三、知识库能做什么
知识库用于沉淀 可被 AI 引用的企业知识:
-
上传制度、手册、培训材料、流程说明等
-
经分段与向量化后,供 聊天应用、Agent、工作流 检索引用
-
回答时基于文档片段,而不是凭空编造
后续 RAG、企业问答机器人等都依赖这一步把「资料」变成「可检索知识」。
四、创建知识库并上传文档
1. 进入创建向导
顶部 知识库 → 创建知识库(也可先 创建空知识库,再补文件)。
向导三步:
-
选择数据源
-
文本分段与清洗
-
处理并完成
2. 选择数据源(Step 1)
默认选 「导入已有文本」,支持:
-
拖拽或 选择文件 批量上传
-
另可选 同步自 Notion、同步自 Web 站点
案例一次性导入三份材料:
| 文件 | 格式 |
| --- | --- |
| 星辰跨境员工手册 | .docx |
| 星辰跨境员工知识库 | .pdf |
| 星辰跨境政策流程 | .txt |
选好后进入 下一步。
上传前可在 Word 等工具里用 标题样式 整理好章节结构,有利于后续分段效果(案例中对手册做了标题分级)。
五、文本分段与索引(Step 2)
1. 分段设置(通用模式)
| 参数 | 推荐值 | 含义 |
| --- | --- | --- |
| 分段标识符 | \n\n | 按双换行切分 |
| 分段最大长度 | 1024 | 单段字符上限 |
| 分段重叠长度 | 50 | 相邻段重叠,减少上下文断裂 |
| 文本预处理 | 勾选「替换连续空格、换行符和制表符」 | 清洗噪声 |
可点 预览块 查看 Chunk-1、Chunk-2 等切分结果(如政策流程被切成「数据分类」「风险评估」「合规审查」等段)。
2. 索引方式:高质量 vs 经济
界面左右对比两种模式,推荐选左侧「高质量」:
| 模式 | 特点 |
| --- | --- |
| 高质量 | 调用 Embedding 模型 做向量索引,检索更准;需选择 Embedding(如 ****** **BAAI/bge-m3** **) |
| 经济 | 关键词检索,省 Token,精度较低,且 无需/无法 像高质量那样选配 Embedding |
高质量模式启用后,该数据集 一般不可再切回经济模式,创建时要想清楚。
3. 检索设置
在 向量检索 下可进一步配置:
-
开启 Rerank 模型(如
BAAI/bge-reranker-v2-m3)提升排序质量 -
Top K 设为
2(先取最相关的 2 个片段) -
另有 全文检索、混合检索 等可选项
界面还提供 父子分段 + 高级索引 等更强模式,适合长文档要「子块检索、父块补上下文」的场景;入门先用 通用 + 高质量 即可。
4. 保存并进入处理
配置确认后保存,进入 Step 3:处理并完成。向量化需要一定时间:
-
可留在当前页等待
-
也可 先到「文档」列表,后台会继续处理;处理完成后状态变为可用
六、处理完成:文档列表长什么样
进入 星辰跨境知识库 → 文档,可见三份文件均已 可用(绿色状态):
| 文档 | 分段模式 | 约字符数 |
| --- | --- | --- |
| 星辰跨境政策流程.txt | 通用 | ~605 |
| 星辰跨境员工知识库.pdf | 通用 | ~3.0k |
| 星辰跨境员工手册.docx | 通用 | ~935 |
说明:
-
可用 表示已完成索引,可被应用 / 工作流 / Chat 插件引用
-
列表支持 搜索、添加文件、元数据 管理
-
每行有 开关,可快速启用或停用某文档参与检索
侧边栏还有 召回测试(验证检索效果)和 设置(库级参数)。
七、文档与分段日常管理
点进单篇文档(如 星辰跨境政策流程.txt)进入 分段视图。
1. 搜索分段
顶部搜索框可直接搜关键词。例如搜 「安全」,可定位到包含该词的分段,文档多、分段多时尤其省事。
2. 查看与编辑分段
-
点击左侧某一分段,右侧 编辑分段 展示全文
-
可修改内容后 保存
-
支持 新增分段,把选中内容并入新段
右侧 技术参数 会展示:分段规则、最大段长、平均段长、段数、嵌入耗时与 Token 消耗等。
3. 停用某分段(不参与检索)
若希望某段 不再被召回,可点分段右上角 蓝色开关:
-
蓝色:参与检索
-
灰色:停用,内容仍保留但不参与匹配
适合过时条款、临时下线说明等场景。
4. 批量添加分段
通过 批量添加分段 上传 CSV(模板列名为「分段内容」),可一次写入多段,适合从 Excel 整理好的问答或条款清单。
5. 文档级操作
文档菜单支持 重命名、归档、删除 等。企业资料迭代时,应 上传新版本并替换旧文档,避免员工仍检索到已失效制度。
八、知识库设置(库级)
设置 页可统一调整:
| 配置项 | 说明 |
| --- | --- |
| 知识库名称 / 描述 | 便于团队识别用途 |
| 可见权限 | 只有我 / 所有团队成员 / 部分团队成员 |
| 索引模式 | 高质量 + Embedding 模型 |
| 检索设置 | 向量检索、Rerank、Top K 等 |
库级参数会影响该知识库下 所有文档 的默认检索行为;单文档仍可在分段层做细调。
九、流程回顾
| 步骤 | 动作 |
| --- | --- |
| 1 | 知识库 → 创建 → 导入文本(多格式批量) |
| 2 | 通用分段 + 预处理 + 高质量 + Embedding |
| 3 | 配置向量检索 / Rerank / Top K → 处理并完成 |
| 4 | 文档列表确认 可用 |
| 5 | 分段搜索、编辑、启停、批量 CSV、库设置与权限 |
十、小结
知识库不是「把文件丢进去就行」,而是 上传 → 合理分段 → 高质量向量索引 → 可检索可用 的闭环。案例里的三份跨境业务文档,代表企业里最典型的三类资料:制度流程、综合知识 PDF、员工手册。