AI 系列之RAG 系统与传统语言模型

0 阅读4分钟

medium.com

RAG(Retrieval Augmented Generation,检索增强生成) 是目前最常用的一种让大语言模型(比如 ChatGPT、Gemini、Claude)变得更可靠、更“懂行”的技术。它本质上就是让 AI 在回答问题前,先去查阅可靠的外部资料,而不是只靠自己“背过”的知识来瞎猜。

1. 为什么需要 RAG?(传统 LLM 的痛点)

普通大语言模型就像一个“死记硬背”的学生:

  • 它只靠训练时记住的知识(截止到某个日期)。
  • 遇到公司内部文档、最新政策、专有数据时,就容易胡说八道(专业叫“幻觉”)。
  • 知识一过时就答错。

RAG 相当于给这个学生发了一本允许翻看的“开放书考试”参考书,而且这本书还是实时更新的公司资料库。

看上面这张图,对比就一目了然:

  • 左边传统 LLM:只靠自己脑子,容易出错、过时、不能引用来源。
  • 右边 RAG:会先去查外部资料,再结合资料回答,可靠得多,还能标注出处。

2. RAG 到底是怎么工作的?

整个过程分成两大阶段,像流水线一样:

阶段一:提前准备资料(离线,一次性做) 把公司所有文档(PDF、手册、代码注释、知识库等)切成小块(Chunking),然后用“嵌入模型”把每块文字变成一串数字向量(Embedding),存进一个特殊的向量数据库(比如 ChromaDB、Milvus、Weaviate)。 这步就像把图书馆所有书做成“电子索引卡”,方便以后快速查找。

阶段二:用户提问时实时处理(在线)

  1. 用户问一个问题(例如:“我们公司的请假政策是什么?”)。
  2. 把问题也转成向量。
  3. 在向量数据库里快速搜索最相似的文档块(Semantic Search,语义搜索,而不是关键字匹配)。
  4. 把找到的最相关几段文字,塞进给 LLM 的提示词里(Prompt Augmentation)。
  5. LLM 拿着这些真实资料,生成最终回答。

Introduction to LLM RAG - Retrieval Augmented Generation Explained |  Weaviate

weaviate.io

Introduction to LLM RAG - Retrieval Augmented Generation Explained | Weaviate

上面这张图把流程标成了① Retrieval(检索)→ ② Augmented(增强)→ ③ Generation(生成),非常清晰。

3. 更详细一点的实际流程图(推荐收藏)

RAG Explained: A Comprehensive Guide to Mastering Retrieval-Augmented  Generation | by Ajit | Towards AI

pub.towardsai.net

RAG Explained: A Comprehensive Guide to Mastering Retrieval-Augmented Generation | by Ajit | Towards AI

这张图把所有环节都画出来了,你可以对照看:

  • 左上:原始文档 → 分块 → Embedding → 存进向量数据库。
  • 中间:用户提问 → 也 Embedding → 去数据库检索 Top K 相似文档。
  • 右下:把检索到的文档拼进 Prompt → 交给 LLM 生成答案。

4. 举个我们前端开发者最常见的实际例子

你在做一个企业内部 AI 助手:

  • 普通 ChatGPT 问“今年 Q3 的舆情趋势如何?” → 它可能胡编。

  • 加了 RAG 后:

    • 系统先从公司内部的舆情报告 PDF、Excel、历史聊天记录里检索出最相关的段落。
    • 把这些段落塞给模型。
    • 模型就能准确引用“根据 2025 年 9 月的内部报告,负面占比下降 15%……”并配上你用 ECharts 画的趋势图。

5. RAG 能带来什么实际好处?

  • 准确率大幅提升:幻觉问题减少 70-90%(实际项目数据)。
  • 知识实时更新:公司文档改了,重新索引一下就行,不用重新训练模型。
  • 可解释:回答里可以附上“参考文档链接”,用户知道来源。
  • 成本低:比微调模型便宜太多,普通开发者就能上手。

6. 它也不是万能的(真实局限)

  • 如果检索到的资料不对(向量搜索不准),答案还是会错(所以要调 Embedding 模型、Chunk 大小、检索策略)。
  • 文档太多时,速度会变慢(需要好点的向量数据库)。
  • 隐私文档要小心处理权限。

总结

RAG 就是“让 AI 先查书再回答”的聪明做法,它把大模型从“靠记忆背书”升级成了“带着资料库考试”,让它在企业场景里真正好用起来。