人人都能懂的大模型 · 第17期:RAG:给 AI 一本“开卷考试”的参考书

7 阅读10分钟

这是《人人都能懂的大模型》系列科普连载。我是你们的老朋友小可。在这个系列里,我将和小明(火柴人读者)以及阿模(方头机器人 AI)一起,带你用大白话拆解 AI 的奥秘。本期我们聊聊目前企业界最火的技术——RAG。


1. 别难为 AI 了,它也需要“翻书”

小明最近很郁闷,他问阿模(我们的方头机器人 AI):“阿模,咱们公司去年新出的那款‘超级无敌旋转铲’的保修期是多久?”

阿模在那儿支支吾吾半天,最后自信满满地回答:“那是 3 年!”小明一查合同,明明是 1 年。阿模这是典型的“一本正经胡说八道”。

这其实不能怪阿模。大模型在出厂时(训练完成时),它的知识就定格在那一刻了。就像一个学霸,虽然背下了图书馆里所有的书,但如果考试考的是昨天刚发生的新闻,或者你们家公司的内部秘籍,他肯定抓瞎。

为了不丢面子,阿模只能靠直觉“编”一个答案。这种现象,在 AI 领域被称为“幻觉”(Hallucination)。那怎么办呢?聪明的人类想到了一个绝招:既然背不下来,那就给阿模发一本参考书,让他“开卷考试”!这就是 RAG(检索增强生成)。

配图

2. RAG:一次性治好 AI 的三大顽疾

为什么要用 RAG?因为它能像“特效药”一样,一次性解决大模型的三个心病。

第一,知识过时。大模型的知识是有“保质期”的,比如只更新到 2023 年。RAG 就像给 AI 准备了一个可以随时更新的私人剪报本,你可以把最新的资讯放进去让它查阅。 第二,不懂私有数据。你公司的财务报表、产品手册,模型在互联网上根本学不到。通过 RAG,你可以把这些文档作为“私人图书馆”递给 AI。 第三,减少幻觉。以前是盲考,现在是“看着答案写作业”。有了原文作为证据,AI 就不敢再瞎编了。

阿模有了 RAG 之后,就像从一个“只会死记硬背的优等生”,变成了一个“带着专业助理的智囊团”。

配图

3. 索引:把书拆散,存进“向量数据库”

那么,RAG 是怎么把参考书给 AI 看的呢?第一步叫索引 (Indexing)

想象一下,你有一本 500 页的《员工手册》。你不能一次性全塞给 AI,因为它“记性”(上下文窗口)有限。我们得先把书切成小块,比如每一段作为一个小卡片。

然后,最神奇的事情发生了:我们要把这些文字转化成一种 AI 能理解的“暗号”——向量。你可以理解为给每个小卡片标上了一串由几百个数字组成的“超级坐标”(向量)。在这个高维空间里,意思相近的话,位置就离得近。最后,把这些带坐标的小卡片存进一个专门的仓库,也就是“向量数据库”。

配图

4. 检索:在海量文档中“众里寻他”

当小明问:“我感冒了能请几天假?”阿模不会盲目去翻整本书,而是启动第二步:检索 (Retrieval)

系统会先把小明的问题也转换成一个“坐标点”。然后在向量数据库这个巨大的地图上,迅速画个圈,看看哪些“知识卡片”离这个点最近。

比如,它会精准地找到写着“病假规定”、“医疗保险”、“请假流程”的这几张卡片。这个过程就像在图书馆的索引系统中输入关键词,管理员秒速帮你从书架上抽出了相关的三五页纸。这就是“检索”的魅力:在万亿级的数据中,瞬间抓出最关的那一小撮。

配图

5. 生成:把证据和问题一起交给模型

最后一步是生成 (Generation)

现在,阿模手里拿到了刚才检索出来的三张卡片。系统会给阿模发一个指令:“阿模,请根据下面这几段参考资料,回答用户的问题。如果资料里没写,就说不知道,不许瞎编!”

阿模看了一眼卡片:

  • 卡片 A 说:感冒属于病假。
  • 卡片 B 说:病假凭医生证明每年可休 10 天。
  • 卡片 C 说:需提前在系统申请。

于是,阿模信心满满地回答:“小明,根据《员工手册》,感冒请病假每年最多 10 天,记得找医生开证明并在系统里申请哦!”

为了让生成的答案更完美,现代 RAG 系统往往还会加入“来源标注”。阿模回答完后,还会贴心地附上:[来源:行政部 2024 版《员工手册》第 12 页]。这种“透明度”让用户非常安心,因为你可以随时点击链接去核对原文。

配图

6. 重排序(Rerank):在众多的资料里选出“最对”的那一个

在“检索”和“生成”之间,其实还隐藏着一个高手,叫重排序 (Rerank)

为什么要它?因为 AI 的“第一直觉”有时并不完美。刚才我们说,系统会通过“坐标位置”去找相关的卡片,这叫初筛。但有时候,两个句子的关键词很像,但意思完全不同。比如你问“苹果多少钱?”,系统可能搜出了“红富士苹果的价格”,也搜出了“苹果手机的价格”。

重排序就像是一个更细心的“老教授”。它会对初筛出来的几十个候选卡片进行第二次深度审查。它会逐一阅读卡片内容,把那些看起来“位置近”但“逻辑不对”的卡片踢出去,把最精准的内容排到最前面。

有了重排序,AI 拿到的参考资料就从“一堆可能相关的纸”变成了“几张绝对准确的精华”。这大大减少了 AI 被垃圾信息带偏的可能性,是企业级 RAG 应用能够商用的关键补丁。

配图

7. 切分的学问:切多大才合适?

在做 RAG 的时候,怎么“切书”是个技术活,专业术语叫 Chunking

如果切得太粗(比如一章切成一块),信息太杂,AI 容易看花眼,抓不住重点。就像让你从一本《史记》里找刘邦在哪儿吃饭,结果管理员直接扔给你整本《高祖本纪》,你还得看半天。

如果切得太细(比如一句话切成一块),AI 就会失去“上下文”。比如你切了一句“他点点头”,AI 根本不知道这个“他”是谁。

常见的策略有几种:

  1. 按段落切:最自然,但段落有长有短,会导致处理速度不均。
  2. 固定长度+重叠 (Fixed-size overlapping):比如每 500 字切一块,但每块和上一块重叠 100 字。这 100 字的重叠就像“粘合剂”,确保信息不会在切点处断掉。
  3. 语义切分 (Semantic Chunking):最智能,利用模型分析文本。让 AI 判断哪里是意思的转折点,就在哪儿动刀。虽然费点算力,但效果最好。

配图

8. RAG vs 微调:选外挂还是选整容?

很多人会问:既然 AI 记不住新知识,我直接把新书喂给它,让它重新学习(微调 Fine-tuning)不行吗?

我们可以打个比方。微调更像是给 AI 进行“岗前专项训练”,让它学会特定的说话语气或专业格式,但论记背具体的规章制度,它不如 RAG 灵活。微调就像是给 AI 做“脑部手术”,让逻辑内化,但成本极高,而且一旦知识更新,你得重新“动手术”。

RAG 就像是给 AI 戴了个“智能眼镜”,眼镜能联网查资料。它灵活(换个文档库就行)、便宜(不用训练模型)、安全(私密数据不用真的被模型“吃”掉)。所以,对于大多数企业来说,RAG 是目前性价比最高的 AI 落地方案。

配图

9. 企业实战:RAG 已经无处不在

别以为 RAG 还只是实验室里的玩具,它早就悄悄进入你的生活了。

很多大公司的内部知识库,员工只要输入“怎么报销差旅费”,AI 就会翻阅成百上千份规章制度,一秒给你答案。不再需要员工去翻厚厚的 PDF。

再比如智能客服,它不再只会复读机式地回答“亲,请稍等”,而是能根据你购买的产品型号,实时查询说明书来教你操作。甚至它能结合你的订单历史(这也是一种动态数据),给出个性化的建议。

在医疗领域,医生可以用 RAG 辅助查阅最新的医学文献;在金融领域,分析师用它在几万页的财报里找蛛丝马迹。RAG 正在改变我们处理信息的方式:从“寻找信息”变成了“询问结果”。

配图

10. 总结:给 AI 一双发现真相的眼睛

总的来说,RAG 的核心逻辑就是:先检索,后生成。它解决了大模型“记性不好”和“爱胡编”的毛病。

虽然 RAG 也有局限性,比如如果检索回来的资料本身就是错的,或者资料太多把 AI 搞糊涂了(这叫“噪音干扰”),但瑕不延瑜,它是目前构建“可信 AI”应用的最核心技术手段之一。它不仅让 AI 变得博学,更让 AI 变得严谨。

配图

11. 要点总结 & 下期预告

好啦,第 17 期《RAG:给 AI 一本“开卷考试”的参考书》到这里就结束了。我们来复习一下今天的知识点:

  1. RAG = 检索增强生成,本质就是让 AI “翻书”回答问题。
  2. 三大痛点:解决了知识过时、不懂私有数据、爱说瞎话(幻觉)的问题。
  3. 四步走:索引(存书)、检索(找书)、重排序(精选)、生成(看书答题)。
  4. 优势:相比微调,它更便宜、更新快、支持溯源。

配图

下期预告: 虽然 RAG 给 AI 提供了知识,但如果遇到复杂的逻辑题,光有知识是不够的,还得有“脑子”。下一期,我们将聊聊让 AI 变聪明的“思维体操”——思维链 (CoT):让 AI 一步步思考的魔法

我们下期见!