AI 伴学笔记9 检索增强生成RAG 不仅仅依赖于训练数据中的信息，还可以从大型外部知识库中检索信息，特别适合处理在训练

检索增强生成：Retrieval-Augmented Generation，RAG，结合检索和生成的能力，为文本序列生成任务引入外部知识

RAG 不仅仅依赖于训练数据中的信息，还可以从大型外部知识库中检索信息，特别适合处理在训练数据中未出现的问题，通常可以概括为三个步骤：

文档加载

LangChain 提供各种文档加载器，并与 Airbyte、Unstructured.IO 等供应商集成

名称	说明	加载类
TextLoader	加载文本文档	TextLoader
CSVLoader	加载CSV 文档	CSVLoader
HTMLLoader	加载HTML文档	UnstructuredHTMLLoader
JSONLoader	加载JSON 文档	JSONLoader
MarkdownLoader	加载Markdown 文档	UnstructuredMarkdownLoader
PDFLoader	加载 PDF 文档	PyPDFLoader

将文本拆分成更小的块（片，节点等）

文本分割器工作原理为：

分割器	说明
字符分割器 CharacterTextSplitter	基于单个字符进行分割，默认的分隔符为 `\n\n`，分块大小为字符数。
递归字符分割器 RecursiveCharacterTextSplitter	用一个分隔符列表进行分割，按照顺序逐个尝试列表中的分割符直到块足够小为止。默认的分隔符列表是 `["\n\n","\n","",“"]`
Markdown 标题分割器 MarkdownHeaderTextSplitter	根据指定的标题标记来分割 Markdown 文件，如 `#` 或 `##`。
令牌分割器 TokenTextSplitter SpacyTextSplitterSentence TransformersTokenTextSplitter NLTKTextSplitter	在分割文本时考虑令牌数量，如 TokenTextSplitter 使用 TikToken 估计分割后的令牌数量
分割器和分片策略主要考虑以下因素：

LLM Token 限制，还要预留一定数量的 Token 作为输入提示
考虑任务类型
- 需要细致查看文本的任务，最好使用较小的分块：需要识别文本中的单个单词或字符，分析类任务，关键字提取任务等
- 需要全面了解文本的任务，则使用较大的分块：需要理解文本的整体含义，识别文本中不同部分之间的关系，创意写作等
所分割的文本的性质，文本结构很强（HTML，代码等）的需要较大的块

过滤冗余的文档：EmbeddingsRedundantFilter 工具可以识别相似的文档并过滤掉冗余信息，节省存储空间并提高检索效率。
翻译文档：通过与工具 doctran 进行集成，可以将文档从一种语言翻译成另一种语言。
提取元数据：通过与工具 doctran 进行集成，可以从文档内容中提取关键信息（日期、作者、关键字等）存储为元数据，更有效地管理、分类和检索文档。
转换对话格式：通过与工具 doctran 进行集成，可以将对话式的文档内容转化为问答（QA）格式，更容易地提取和查询特定的信息或回答，在处理访谈、对话或其他交互式内容时非常有用。

嵌入 Embeddings 将一段文本转换为向量表示，在向量空间中查找最相似的文本片段，由 LLM 完成。

LangChain 提供 Embeddings 类表示 LLM 文本嵌入功能的接口

存储计算后的嵌入结果

LangChain 提供 CacheBackedEmbeddings 将嵌入缓存在键值存储中，通常使用 from_bytes_store(<embedder>, <cache>, <namespace>) 创建

embedder：Embeddings 类的实现类，实际计算嵌入的嵌入器
cache：存储文档嵌入的缓存，可用内置缓存工具
- InMemoryStore：内存缓存
- LocalFileStore：本地文件系统存储
- 其他数据库，如 RedisStore 或其他向量数据库
namespace：可选，文档缓存的命名空间，避免冲突

根据具体需求选择

检索器 Retriever 是数据检索模块的核心入口，通过非结构化查询返回相关文档

最常用的检索器是向量存储检索器，使用 VectorstoreIndexCreator 创建，通过 vectorstore 类的 as_retriever 方法直接作为检索器

LangChain中还提供很多种其他的检索工具

索引：Index，一种高效地管理和定位文档信息的方法，确保每个文档具有唯一标识并便于检索。

LangChain 使用记录管理器 RecordManager 跟踪写入向量存储的文档，通过哈希处理确保每个文档都有一个唯一的标识

记录管理器确保了即使文档经历了多次转换或处理，也能够精确地跟踪它的状态和来源，确保文档数据被正确管理和索引。