一、 RAG 效果评估的必要性
- 评估出 RAG 对大模型能力改善的程度
- RAG 优化过程中,通过评估可以知道改善的方向和参数调整的程度
二、 RAG 评估方法
1.人工评估
最基础的方式是进行人工评估:邀请专家或人工评估员对 RAG 生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估,如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈,但可能会消耗大量的时间和人力资源。
2.自动化评估
自动化评估是 RAG 评估的主流和发展方向。
3. LangSmith
- 需要准备测试数据集
- 不仅可以评估 RAG 效果,对于 LangChain 中的 Prompt 模板等步骤都可进行测试评估。
4. RAGAS
RAGAS(Retrieval-Augmented Generation Assessment)是一个评估框架,用于评估检索系统识别相关和重点上下文段落的能力、LLM 以忠实方式利用这些段落的能力,以及生成内容本身的质量。
数据集格式:
question:作为 RAG 管道输入的用户查询(输入)answer:从 RAG 管道生成的答案(输出)contexts:从用于回答 question 的外部知识源中检索的上下文ground_truths:question 的基本事实答案(唯一人工注释的信息)
三、 评估指标
1.评估检索质量
context_relevancy(上下文相关性,也叫context_precision)context_recall上下文召回衡量检索到的上下文(contexts)与标准答案(ground_truths)的匹配程度。(召回性,越高表示检索出来的内容与正确答案越相关)
2.评估生成质量
faithfulness(忠实性,越高表示答案的生成使用了越多的参考文档 / 检索内容)answer_relevancy(答案的相关性)
Context Recall: