你怎么评估RAG中无关段落的影响?

26 阅读3分钟

你怎么评估RAG中无关段落的影响?

The Distracting Effect: Understanding Irrelevant Passages in RAG

该论文聚焦RAG系统中的“干扰效应”—— 即与查询无关但语义相关的检索段落误导LLM生成错误答案的问题,对“干扰效应”进行了量化定义和评估,并通过干扰片段提升RAG系统效果。【AI大模型教程】

TL;DR

  1. RAG系统中的“干扰效应” —— 即不包含答案但和查询语义相关的段落(无关段落)容易误导LLM生成错误答案。
  2. 基于大模型生成的概率,对无关堕落的干扰效应进行了量化评估。
  3. 检索系统返回的无关段落干扰性很强!
  4. 训练RAG模型时,增加高干扰段落,能够提升RAG回答的准确率,提高模型对无关段落的鲁棒性!

1 RAG中的“干扰效应”

RAG的核心优势是通过检索外部段落为LLM提供知识支撑,减少幻觉,但存在关键缺陷:

  • 检索失效场景:当检索结果包含“干扰段落”(与查询语义相关但不含正确答案的段落)时,LLM可能被误导,生成错误答案
  • 现有方法局限:此前对无关段落仅做“完全无关”或“干扰”的二元分类,缺乏对“干扰程度”的量化,也未形成系统性的干扰段落获取与利用方法。

2 核心创新

2.1 干扰效应的量化

量化无关段落的“干扰效应”。

对于查询q、无关段落p,干扰效应(Distracting Effect, )定义如下:

表示:给定无关段落p和用户问题q,LLM输出NO-RESPONSE的概率,即:模型放弃回答的概率。 简言之: 表示输入无关段落时,模型仍要生成回答的概率。

 取值越接近1,说明LLM越倾向于基于该干扰段落生成答案(干扰性越强);值越接近0,说明LLM越能识别段落无关性(干扰性越弱)。

初看有点反直觉:如果p是一个相关段落,模型理应倾向于回答问题,即生成NO-RESPONSE的概率会很低,那算出来的会很高,这不是反了吗?

 因此要注意:p必须是和q无关的,得预先知道p是无关段落!

2.2 干扰段落的获取方法

论文提出 “检索+生成”双路径方法,获取高质量干扰段落,咱主要看基于检索的方式:从检索结果中筛选高干扰段落。

一个假设:检索后排名靠前的无关段落更可能具有高干扰性,设计两类检索策略:

  • 向量检索****:对向量检索模型(如E5-base嵌入)的Top-N结果,剔除含正确答案的相关段落,保留排名最高的无关段落(视为高干扰候选)。
  • 答案偏移检索****:也是向量检索,但是会修改q的向量,刻意检索“与查询相关但与答案无关”的段落。 具体而言就是在q的向量中减去正确答案的向量:
  • 减法偏移:为查询嵌入,为文档/答案嵌入
  • 投影偏移:

3 实验结论

  • 不同参数规模、不同架构的 LLM(如 3B 的 Llama-3.2、70B 的 Llama-3.3、Falcon、Qwen 系列),对同一段落的 DE 评分呈高相关,证明 DE 不依赖特定模型,可通用。

  • 段落的 DE 值越高,将其与ground-truth段落一同输入时,RAG 准确率下降越明显(降幅达 6-11 个百分点),证明 DE 能有效量化 “段落对 RAG 的干扰程度”。

  • rerank模块会增强干扰性——经过rerank的Top无关段落,其平均干扰效应显著高于未rerank结果。

    ==》rerank后仍被保留的无关段落更能“欺骗检索系统”,更易误导LLM。

  • 使用包含高干扰段落的数据微调RAG模型,在多个数据集上RAG回答的准确率都有显著提升 ==》模型对干扰段落的鲁棒性。