大模型也能开卷答题 - RAG一句话：RAG 是通过外部的知识库增强语言大模型的生成能力的技术 RAG 架构演进 RAG

一句话：RAG 是通过外部的知识库增强语言大模型的生成能力的技术

RAG 架构演进

Retrieval-augmented generation

从当前 RAG 的问题出发我们推测接下来对 RAG 的优化主要集中在

离线索引构建

在线检索

在 Navie RAG 的基础上， query 多加一步 pre-Retrieval , Retrieval 后再加一步 post-Retrieval

Pre-Retrieval

Query 增强：分解，转换（模糊 → 清晰） ,增强（拆解子问题）

索引数据增加：清晰，分块，Embedding 模型针对性优化

Post-Retrieval

对 Retrieval 结果做二次加工（排序 & 压缩）

到 advanced RAG 为止，其线性流程可以简化为下面这样 👇

这个流程看起来没什么问题，但是他太简单了，灵活性不够，对于一些可能需要深度搜索或者需要创造性回答的问题表现不够好。

Modular RAG 就是为了解决这个问题出现的。上述的每一个步骤都视为一个模块。通过不同的编排方式，形成 RAG FLow，进而提升 RAG 的性能表现。

线性编排
条件编排
分支（并行）编排
循环编排
- 循环检索：在检索和生成之间交替进行 → 适合开放性问题（多意图混合，模糊查询）
- 递归检索：不断的将子问题拆分为子问题，最后逐层整合（适合深度复杂的推理问题）

更重要的是，这每一个关键的模块都被封装成接口，调用方可以根据自己的需求自定义，大大拓展了 RAG 能力的边界。

使用哪一种编排方式，如何编排，可以使用 LLM Agent 自动判断（ Adaptive retrieval ) 。

条件编排

分支编排

循环编排

顾名思义，将 LLM Agent 作为 RAG 编排和控制的大脑。

Embedding 是 RAG 的核心组件，要讲 RAG Retrieval-Augmented Generation 检索增强生成，就不得不先讲 Embedding

一句话，Embedding 就是将文本等实体，转换成浮点向量用于相似性计算的技术

Embedding 位于 Transformer 的输入层，直接接收原始文本的 token 序列，通过查表将其转化为连续的向量表示。比如下面这个例子，将文本转化为浮点向量后，相似性越高的内容之间的举例越近，比如这里的汽车和单车，而枕头由于关联性较低，则离得较远。

本质上，Embedding 做的其实是 token 的降维。具体一点是将高维稀疏的 token 转换成低维稠密的向量，降低计算的复杂度。

embedding 层的输出（带有位置编码的词向量）直接作为 Transformer （Encoder/Decoder）的输入，供自注意力机制下一步处理。

除了对文本做 Embedding，还可以

使用 Embedding 增强 LLM 能力的基本步骤（以 OpenAI 为例）