AI初认识（RAG 评估）一、 RAG 效果评估的必要性评估出 RAG 对大模型能力改善的程度 RAG 优化过程中，通

一、 RAG 效果评估的必要性

最基础的方式是进行人工评估：邀请专家或人工评估员对 RAG 生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估，如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈，但可能会消耗大量的时间和人力资源。

自动化评估是 RAG 评估的主流和发展方向。

RAGAS（Retrieval-Augmented Generation Assessment）是一个评估框架，用于评估检索系统识别相关和重点上下文段落的能力、LLM 以忠实方式利用这些段落的能力，以及生成内容本身的质量。

数据集格式：

context_relevancy（上下文相关性，也叫 context_precision）
context_recall上下文召回衡量检索到的上下文（contexts）与标准答案（ground_truths）的匹配程度。（召回性，越高表示检索出来的内容与正确答案越相关）

Context Recall：