AI初认识(RAG 评估)

5 阅读2分钟

一、 RAG 效果评估的必要性

  • 评估出 RAG 对大模型能力改善的程度
  • RAG 优化过程中,通过评估可以知道改善的方向和参数调整的程度

二、 RAG 评估方法

1.人工评估

最基础的方式是进行人工评估:邀请专家或人工评估员对 RAG 生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估,如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈,但可能会消耗大量的时间和人力资源。

2.自动化评估

自动化评估是 RAG 评估的主流和发展方向。

3. LangSmith

  • 需要准备测试数据集
  • 不仅可以评估 RAG 效果,对于 LangChain 中的 Prompt 模板等步骤都可进行测试评估。

4. RAGAS

RAGAS(Retrieval-Augmented Generation Assessment)是一个评估框架,用于评估检索系统识别相关和重点上下文段落的能力、LLM 以忠实方式利用这些段落的能力,以及生成内容本身的质量。

数据集格式

  • question:作为 RAG 管道输入的用户查询(输入)
  • answer:从 RAG 管道生成的答案(输出)
  • contexts:从用于回答 question 的外部知识源中检索的上下文
  • ground_truths:question 的基本事实答案(唯一人工注释的信息)

三、 评估指标

1.评估检索质量

  • context_relevancy(上下文相关性,也叫 context_precision
  • context_recall上下文召回衡量检索到的上下文(contexts)与标准答案(ground_truths)的匹配程度。(召回性,越高表示检索出来的内容与正确答案越相关)

2.评估生成质量

  • faithfulness(忠实性,越高表示答案的生成使用了越多的参考文档 / 检索内容)
  • answer_relevancy(答案的相关性)

Context Recall