从零开始学 Dify- RAG 知识库系统设计详解RAG（检索增强生成）知识系统是 Dify 的核心组件，它使 AI 应

RAG（检索增强生成）知识系统是 Dify 的核心组件，它使 AI 应用程序能够检索和利用外部知识。该系统管理从文档提取到知识检索的整个流程，支持不同的索引技术、文档处理方法和检索策略。

接下来将分别介绍各个子系统：

模型提供者系统(Model Provider System) ✅

RAG 知识系统(RAG Knowledge System) ✅

对话系统(Conversation System)

工作流系统(Workflow System)

架构概述

RAG 知识系统遵循三阶段提取-转换-加载 (ETL) 流程进行文档处理，并结合复杂的检索机制进行知识访问。

RAG 系统架构图

RAG（检索增强生成）知识系统使应用程序能够通过以下方式利用基于文档的知识：

文档提取 ：处理各种文档格式
分块和嵌入 ：将文本转换为矢量表示
知识检索 ：查找与用户查询相关的信息

数据集管理

数据集结构

数据集是 RAG 知识体系的基本组织单元。每个数据集包含文档，文档被划分为多个段，以便于索引和检索。

数据集创建

为了创建数据集，系统接受包括名称、描述、索引技术和检索配置在内的参数。

POST /datasets

数据集创建工作流程：

验证参数
创建数据集记录
如果使用高质量索引，请配置嵌入模型
设置检索配置
设置权限

索引技术

该系统支持两种主要索引技术：

技术	描述	向量数据库	Embedding 模型	用例
`high_quality`	使用嵌入模型将文本转换为向量	必需	必需	更好的语义理解，处理细微的查询
`economy`	使用基于关键字的倒排索引	不需要	不需要	更低的资源占用，精准的关键字匹配

文档形式

文档可以以三种不同的形式进行处理和索引：

形式	描述	索引方法
`text_model`	直接嵌入的默认文本文档	直接嵌入文档内容
`qa_model`	问答对	生成问答对并嵌入问题
`hierarchical_model` （父子模型）	带有子段的父块	创建具有父块和子块的层次结构

文档处理 Pipeline

文档处理管道遵循提取-转换-加载（ETL）模式：

提取阶段

提取阶段处理不同的数据源：

上传文件 ：处理上传的文件，如 PDF、DOCX 等。
Notion 导入 ：从 Notion 页面提取内容
网站抓取 ：从抓取的网站中提取内容

提取过程将不同的内容源规范化为统一的文本文档格式。

转换阶段

转换阶段处理：

文本清理 ：根据配置的规则删除多余的空格、URL、电子邮件
分割（Segmentation） ：根据配置的规则将文档分成块
格式化 ：根据文档形式（文本、问答、分层）准备索引文本

关键分割参数：

分隔符（Separator） ：用于分割文本的字符序列（默认值： \n\n ）
最大令牌数（Max Tokens） ：每个段的最大令牌数（默认值：1024）
块重叠（Chunk Overlap） ：段之间的标记重叠（默认值：50）

加载阶段

将片段保存到数据库
为所有文档创建关键字索引
为了实现高质量索引，生成嵌入并将其存储在向量数据库中

该过程包括：

为段创建数据库记录
使用配置的嵌入模型生成文本嵌入
建立搜索索引（关键字和/或向量）

检索系统

检索系统负责根据用户查询从索引数据集中查找相关信息。

检索方法

系统支持多种检索方式：

方法	描述	要求	优势
语义搜索（Semantic Search）	使用向量相似性来查找语义相关的内容	嵌入模型，向量数据库	最适合基于含义的查询
关键词搜索（Keyword Search）	使用精确关键字匹配	关键词索引	适合精确的术语搜索
全文搜索（Full-Text Search）	使用全文索引技术	全文索引	平衡精度和召回率
混合搜索（Hybrid Search）	结合多种方法	所有索引	最佳整体表现

检索策略

系统支持两种主要的检索策略：

单一检索（Single Retrieval） ：使用带有 AI 模型的单一数据集来路由查询
多重检索（Multiple Retrieval） ：使用可配置的权重和评分在多个数据集中进行搜索

结果处理

格式化为文档上下文
可能使用重新排序模型进行重新排序
根据相关性阈值进行评分和过滤
按相关性排序
准备返回调用应用程序

与工作流集成

RAG 知识系统通过知识检索节点与 Dify 的工作流系统集成：

知识检索节点：

从工作流中获取查询输入
配置检索参数
调用数据集检索系统
将格式化的知识返回到工作流

API 集成

服务 API

RAG 知识系统公开了 RESTful API 以与客户端应用程序集成：

接口	Method	描述
`/datasets`	POST	创建新数据集
`/datasets`	GET	列出可用数据集
`/datasets/{dataset_id}`	GET	获取数据集详细信息
`/datasets/{dataset_id}`	POST	更新数据集设置
`/datasets/{dataset_id}`	DELETE	删除数据集
`/datasets/{dataset_id}/document/create-by-text`	POST	从文本创建文档
`/datasets/{dataset_id}/document/create-by-file`	POST	从文件创建文档
`/datasets/{dataset_id}/documents/{document_id}/update-by-text`	POST	通过文本更新文档

控制台 API

对于内部控制台使用，存在其他端点：

接口	Method	描述
`/console/datasets`	多种方式	控制台的数据集管理
`/console/datasets/{dataset_id}/documents`	多种方式	文档管理
`/console/datasets/{dataset_id}/documents/{document_id}/segments`	多种方式	段管理

速率限制和配额

该系统实施速率限制和配额执行，特别是在云部署中：

知识检索速率限制

对知识检索操作强制实施速率限制

# Simplified rate limiting logic
knowledge_rate_limit = FeatureService.get_knowledge_rate_limit(tenant_id)
if knowledge_rate_limit.enabled:
    current_time = int(time.time() * 1000)
    key = f"rate_limit_{tenant_id}"
    redis_client.zadd(key, {current_time: current_time})
    redis_client.zremrangebyscore(key, 0, current_time - 60000)
    request_count = redis_client.zcard(key)
    if request_count > knowledge_rate_limit.limit:
        # Add rate limit record and return error

资源限制

对各种资源实施限制：

资源	描述	执行点
向量空间	限制嵌入存储	在文档创建/索引期间
Documents	限制文档数量	文档上传期间
知识率	限制检索频率	在知识检索过程中

总结

RAG 知识系统是 Dify 中用于知识索引和检索的综合解决方案。它提供了灵活的文档处理、索引技术和检索策略选项，使其能够适应各种用例。该系统的模块化架构允许与工作流和对话系统等其他组件无缝集成。

参考资料

github.com/langgenius/…

原文地址：https://mp.weixin.qq.com/s/Pjg_8PjUk2xOatua8q0mJg