AI 系列之RAG 系统与传统语言模型RAG（Retrieval Augmented Generation，检索增强生成

medium.com

RAG（Retrieval Augmented Generation，检索增强生成） 是目前最常用的一种让大语言模型（比如 ChatGPT、Gemini、Claude）变得更可靠、更“懂行”的技术。它本质上就是让 AI 在回答问题前，先去查阅可靠的外部资料，而不是只靠自己“背过”的知识来瞎猜。

1. 为什么需要 RAG？（传统 LLM 的痛点）

普通大语言模型就像一个“死记硬背”的学生：

它只靠训练时记住的知识（截止到某个日期）。
遇到公司内部文档、最新政策、专有数据时，就容易胡说八道（专业叫“幻觉”）。
知识一过时就答错。

RAG 相当于给这个学生发了一本允许翻看的“开放书考试”参考书，而且这本书还是实时更新的公司资料库。

看上面这张图，对比就一目了然：

左边传统 LLM：只靠自己脑子，容易出错、过时、不能引用来源。
右边 RAG：会先去查外部资料，再结合资料回答，可靠得多，还能标注出处。

2. RAG 到底是怎么工作的？

整个过程分成两大阶段，像流水线一样：

阶段一：提前准备资料（离线，一次性做） 把公司所有文档（PDF、手册、代码注释、知识库等）切成小块（Chunking），然后用“嵌入模型”把每块文字变成一串数字向量（Embedding），存进一个特殊的向量数据库（比如 ChromaDB、Milvus、Weaviate）。这步就像把图书馆所有书做成“电子索引卡”，方便以后快速查找。

阶段二：用户提问时实时处理（在线）

用户问一个问题（例如：“我们公司的请假政策是什么？”）。
把问题也转成向量。
在向量数据库里快速搜索最相似的文档块（Semantic Search，语义搜索，而不是关键字匹配）。
把找到的最相关几段文字，塞进给 LLM 的提示词里（Prompt Augmentation）。
LLM 拿着这些真实资料，生成最终回答。

Introduction to LLM RAG - Retrieval Augmented Generation Explained | Weaviate

weaviate.io

Introduction to LLM RAG - Retrieval Augmented Generation Explained | Weaviate

上面这张图把流程标成了① Retrieval（检索）→ ② Augmented（增强）→ ③ Generation（生成），非常清晰。

3. 更详细一点的实际流程图（推荐收藏）

RAG Explained: A Comprehensive Guide to Mastering Retrieval-Augmented Generation | by Ajit | Towards AI

pub.towardsai.net

RAG Explained: A Comprehensive Guide to Mastering Retrieval-Augmented Generation | by Ajit | Towards AI

这张图把所有环节都画出来了，你可以对照看：

左上：原始文档 → 分块 → Embedding → 存进向量数据库。
中间：用户提问 → 也 Embedding → 去数据库检索 Top K 相似文档。
右下：把检索到的文档拼进 Prompt → 交给 LLM 生成答案。

4. 举个我们前端开发者最常见的实际例子

你在做一个企业内部 AI 助手：

普通 ChatGPT 问“今年 Q3 的舆情趋势如何？” → 它可能胡编。
加了 RAG 后：
- 系统先从公司内部的舆情报告 PDF、Excel、历史聊天记录里检索出最相关的段落。
- 把这些段落塞给模型。
- 模型就能准确引用“根据 2025 年 9 月的内部报告，负面占比下降 15%……”并配上你用 ECharts 画的趋势图。

5. RAG 能带来什么实际好处？

准确率大幅提升：幻觉问题减少 70-90%（实际项目数据）。
知识实时更新：公司文档改了，重新索引一下就行，不用重新训练模型。
可解释：回答里可以附上“参考文档链接”，用户知道来源。
成本低：比微调模型便宜太多，普通开发者就能上手。

6. 它也不是万能的（真实局限）

如果检索到的资料不对（向量搜索不准），答案还是会错（所以要调 Embedding 模型、Chunk 大小、检索策略）。
文档太多时，速度会变慢（需要好点的向量数据库）。
隐私文档要小心处理权限。

总结

RAG 就是“让 AI 先查书再回答”的聪明做法，它把大模型从“靠记忆背书”升级成了“带着资料库考试”，让它在企业场景里真正好用起来。