RAG(Retrieval-Augmented Generation)系统将信息检索与大语言模型生成深度融合,其质量取决于检索是否精准、生成是否忠实、端到端流程是否高效协同。然而,RAG系统的评估远比传统NLP任务复杂——它横跨检索与生成两个异构阶段,涉及多粒度、多维度、多利益相关方的质量诉求。本章将系统性地介绍RAG评估的理论框架、核心指标、主流工具与工程实践,帮助读者建立从组件级到系统级的完整评估能力。
13.1 RAG评估的重要性与挑战
RAG系统的评估是保障系统质量、驱动迭代优化的核心环节。与传统搜索引擎或独立的大语言模型不同,RAG系统是一个由文档索引、检索器、重排器、提示模板和生成模型等多个组件串联而成的复合系统。任何一个组件的性能退化都可能通过级联效应放大为最终输出的严重缺陷。因此,建立一套科学、系统、可操作的评估体系,对于RAG系统的研发、上线和持续运营至关重要。
从工程实践角度看,RAG评估的核心价值体现在三个方面。第一,评估为系统迭代提供量化依据。开发团队在调整分块策略、切换嵌入模型、优化提示词或升级生成模型时,需要客观指标来判断变更是否真正带来了质量提升,而非依赖主观感受。第二,评估为不同方案的横向对比建立公平基准。在企业级场景中,团队往往需要在多种向量数据库、多种检索策略或多种大语言模型之间做出选型决策,标准化的评估流程是科学决策的前提。第三,评估为生产环境的质量监控奠定基础。通过在上线前建立基线指标,并在运行时持续采样评估,团队可以及时发现质量退化并触发告警。
尽管评估的重要性毋庸置疑,RAG系统的评估在实践中面临诸多独特挑战。首先是多阶段耦合带来的归因难题。当最终生成的回答存在错误时,很难快速判断是检索阶段未能召回相关文档,还是生成阶段忽略了已检索到的正确信息,亦或是提示词设计存在缺陷。其次是评估标准的主观性与场景依赖性。同一个回答在不同业务场景下可能被判定为优秀或不及格——法律咨询场景对事实准确性的容忍度远低于创意写作场景。再次是评估成本与效率的平衡。高质量的专家人工评估成本高昂且耗时漫长,而自动化评估在覆盖面和深度之间需要做出权衡。
为了系统性地应对上述挑战,业界已经形成了分层评估的共识。下图展示了RAG评估体系的整体架构,从检索评估、生成评估到端到端评估,三个层次各有侧重、互为补充。
flowchart TD
A[RAG评估体系] --> B[检索阶段评估]
A --> C[生成阶段评估]
A --> D[端到端系统评估]
B --> B1[召回率 Recall]
B --> B2[精确率 Precision]
B --> B3[MRR]
B --> B4[NDCG]
B --> B5[检索质量可视化]
C --> C1[忠实度 Faithfulness]
C --> C2[相关性 Relevance]
C --> C3[完整性 Completeness]
C --> C4[LLM-as-Judge]
D --> D1[RAGAS框架]
D --> D2[TruLens]
D --> D3[DeepEval]
D --> D4[评估数据集构建]
D --> D5[自动化评估平台]
D --> D6[人工评估实施]
在2025至2026年的最新实践中,RAG评估领域呈现出几个显著趋势。其一,LLM-as-Judge(大语言模型作为评判者)方法日趋成熟,GPT-4o、Claude 3.5等模型在多项评估任务上已接近甚至达到人类专家的判断一致性,大幅降低了评估成本。其二,评估框架从单一指标走向多维仪表盘,RAGAS、TruLens、DeepEval等工具不仅提供指标计算,还内置了根因分析和改进建议功能。其三,评估数据集的构建从人工标注转向半自动生成,利用大语言模型自动生成问题-答案-证据三元组,使评估数据的规模和多样性大幅提升。其四,生产环境的持续评估(Continuous Evaluation)成为标配,团队通过在线采样和离线批量评估相结合的方式,构建了评估驱动的闭环优化流程。
13.2 检索阶段评估指标与方法
检索是RAG系统的第一道关卡,其质量直接决定了生成阶段能够获取的信息上限。如果检索阶段未能召回相关文档,即使生成模型能力再强,也无法产出高质量的回答。因此,对检索阶段的独立评估是RAG评估体系的基础。
13.2.1 召回率、精确率、MRR、NDCG
检索评估的核心在于衡量检索器返回的文档集合与理想文档集合之间的匹配程度。传统信息检索领域经过数十年发展,已经形成了一套成熟的评估指标体系,这些指标在RAG场景中同样适用,但在具体应用时需要结合RAG的特点进行适配。
召回率(Recall)衡量的是在所有与查询相关的文档中,检索器成功返回了多少比例。其计算公式为召回的相关文档数量除以所有相关文档的总数。在RAG场景中,召回率尤为关键——如果关键文档未被召回,生成阶段将面临信息缺失的困境。然而,精确计算召回率需要预先知道完整的文档相关性标注,这在实际业务中往往难以获取。因此,实践中常采用近似方法,例如将多个检索器的结果取并集作为伪相关文档集合,或者利用大语言模型对候选文档进行相关性判断来辅助标注。
精确率(Precision)衡量的是检索器返回的文档中,有多少是真正与查询相关的。其计算公式为召回的相关文档数量除以返回文档的总数。精确率反映了检索结果的纯净度,高精确率意味着生成模型接收到的上下文中噪声较少,可以更专注于有用信息。在RAG系统中,精确率与召回率之间存在经典的权衡关系——提高召回率通常需要返回更多文档,这可能导致精确率下降,而过多的噪声文档反而会干扰生成模型的判断。因此,实践中需要根据具体场景找到合适的平衡点。
平均倒数排名(Mean Reciprocal Rank,MRR)是另一个广泛使用的检索评估指标,它特别关注第一个相关文档在排序结果中的位置。对于每个查询,MRR计算第一个相关文档排名的倒数,然后对所有查询取平均值。MRR的取值范围为0到1,值越大表示检索器将相关文档排在越靠前的位置。在RAG场景中,由于生成模型的上下文窗口有限,通常只能利用检索结果中排名最靠前的若干文档,因此MRR是一个高度实用的指标。
归一化折损累计增益(Normalized Discounted Cumulative Gain,NDCG)是一种更为精细的排序质量评估指标。与MRR只关注第一个相关文档不同,NDCG考虑了所有返回文档的相关性等级及其在排序中的位置。它引入了位置折损因子——排名越靠后的文档,其贡献被折扣得越多。NDCG的取值范围为0到1,能够全面反映检索器在多个相关性层级上的排序能力。在RAG系统中,NDCG特别适用于文档相关性存在多级梯度(如高度相关、部分相关、不相关)的场景。
下表对上述四个核心检索评估指标进行了系统对比。
| 指标 | 全称 | 关注点 | 适用场景 | 计算复杂度 |
|---|---|---|---|---|
| Recall | 召回率 | 相关文档的覆盖比例 | 对信息遗漏容忍度低的场景 | 低 |
| Precision | 精确率 | 返回结果的纯净度 | 对噪声敏感的场景 | 低 |
| MRR | 平均倒数排名 | 首个相关文档的排名 | 只关注首个命中结果的场景 | 低 |
| NDCG | 归一化折损累计增益 | 整体排序质量与多级相关性 | 需要精细排序评估的场景 | 中 |
在实际应用中,上述指标通常需要结合使用,单一指标难以全面反映检索质量。例如,一个检索器可能具有很高的召回率但精确率很低(返回了大量文档但其中大部分不相关),或者MRR很高但NDCG较低(第一个结果很好但后续结果排序混乱)。此外,RAG场景中的检索评估还需要考虑一些特殊因素:文档分块策略对检索结果的影响、查询改写和扩展的效果、多路召回与重排的增益等。这些因素使得RAG检索评估比传统的文档级检索评估更为复杂。
13.2.2 检索质量的可视化分析
除了量化指标之外,可视化分析是理解检索行为、诊断检索问题的重要手段。通过将检索结果以直观的图形方式呈现,评估人员可以快速发现检索器的系统性缺陷,例如某些类型查询的召回盲区、特定文档领域的排序偏差等。
检索结果分布图是最基础的可视化工具之一。它以柱状图或热力图的形式展示不同查询下检索结果的得分分布、相关性分布和文档来源分布。通过观察这些分布,评估人员可以判断检索器是否存在明显的偏斜——例如,是否过度倾向于返回某些来源的文档而忽略了其他来源。在多路召回的场景中,检索结果分布图还可以帮助评估人员了解不同召回通道(向量检索、关键词检索、知识图谱检索等)的贡献比例和互补程度。
召回-精确率曲线(Precision-Recall Curve)是信息检索领域的经典可视化方法。该曲线以召回率为横轴、精确率为纵轴,展示在不同阈值下两者的权衡关系。曲线下面积(Area Under the PR Curve,AUPRC)是一个综合性的评估指标,值越大表示检索器在各个召回率水平上都能保持较高的精确率。在RAG场景中,PR曲线可以帮助团队确定最优的检索数量——即在精确率开始显著下降之前,最多应该返回多少文档给生成模型。
嵌入空间可视化(Embedding Space Visualization)是RAG检索评估中的特色方法。通过t-SNE、UMAP等降维技术,将高维的文档嵌入向量投影到二维或三维空间中,评估人员可以直观地观察文档的聚类结构、查询与文档的相对位置,以及不同类别文档在嵌入空间中的分布情况。这种可视化有助于发现嵌入模型的问题,例如语义相近的文档在嵌入空间中距离过远,或者不同主题的文档发生了不合理的重叠。
在2025至2026年的实践中,检索质量可视化工具已经深度集成到主流的RAG开发平台中。例如,LlamaIndex和LangChain都提供了内置的检索调试面板,支持交互式地查看每个查询的检索过程、文档得分和排序变化。此外,一些新兴工具如Phoenix(Arize AI开源)提供了检索器的实时监控仪表盘,可以在生产环境中持续追踪检索质量指标的变化趋势,并在质量退化时自动发出告警。
13.3 生成阶段评估指标与方法
生成阶段是RAG系统的最终输出环节,其质量直接决定了用户体验。与自由文本生成不同,RAG系统中的生成受到检索文档的约束——理想的生成结果应当基于检索到的文档内容,准确回答用户的问题,同时保持语言流畅、结构清晰。因此,生成阶段的评估需要同时关注忠实性、相关性和完整性等多个维度。
13.3.1 忠实度、相关性、完整性
忠实度(Faithfulness)是RAG生成评估中最核心的指标之一,它衡量的是生成回答与检索文档之间的一致性程度。一个高忠实度的回答应当严格基于检索到的文档内容,不包含文档中未提及的事实声明或推断。忠实度评估的核心挑战在于如何判断生成内容是否"忠于"源文档。传统方法依赖于人工逐句核对,但这种方法成本高昂且难以规模化。近年来,基于自然语言推理(NLI)模型的方法和基于大语言模型的自动评估方法逐渐成为主流。
在具体实现上,忠实度评估通常采用分解-验证的策略:首先将生成回答分解为若干独立的声明(claim),然后逐一判断每个声明是否能够被检索文档所支撑。Es等人(2023)在RAGAS框架中提出的忠实度评估方法就是这一思路的典型代表。该方法使用大语言模型对每个声明进行二分类判断——支持或不支持,最终以被支持声明的比例作为忠实度得分。2025年的最新研究表明,通过引入细粒度的支撑证据定位和置信度评分,忠实度评估的准确性和可解释性得到了进一步提升。
相关性(Relevance)衡量的是生成回答与用户查询之间的匹配程度。一个高相关性的回答应当直接回应用户的问题,不偏离主题,不包含冗余信息。与忠实度不同,相关性关注的是回答是否"答其所问",而忠实度关注的是回答是否"有据可依"。在实践中,一个回答可能具有很高的忠实度(所有内容都有文档支撑)但相关性很低(回答了用户没有问的问题),反之亦然。
相关性评估的难点在于其主观性较强——不同评估者对"相关"的理解可能存在差异。为了降低这种主观性,评估框架通常将相关性分解为多个可操作的子维度,例如主题相关性(回答是否涉及用户询问的主题)、意图相关性(回答是否满足用户的实际意图)和信息密度(回答中有效信息的比例)。RAGAS框架中的答案相关性(Answer Relevance)指标采用了逆向提问的方法:基于生成回答构造一个假设问题,然后计算该假设问题与原始问题的语义相似度。如果回答高度相关,那么基于它构造的问题应当与原始问题高度一致。
完整性(Completeness)衡量的是生成回答对用户问题的覆盖程度。一个高完整性的回答应当涵盖用户问题的所有方面,不遗漏关键信息。完整性评估在多跳问答、复杂查询分解等场景中尤为重要——用户的问题可能包含多个子问题,生成回答需要对每个子问题都给出充分的回应。
完整性的评估通常需要预先定义问题所涉及的关键信息点(key points),然后检查生成回答中覆盖了多少比例。在企业级RAG系统中,完整性评估还涉及对领域知识的深度覆盖。例如,在法律咨询RAG系统中,一个完整的回答不仅需要给出结论,还需要引用相关法条、说明适用条件和例外情况。2025至2026年的实践中,基于大语言模型的完整性评估方法已经能够自动识别问题中的隐含子问题和信息需求,并据此对回答的完整性进行多维度打分。
13.3.2 LLM-as-Judge评估方法
LLM-as-Judge(大语言模型作为评判者)是近年来NLP评估领域最具影响力的方法论创新之一。其核心思想是利用大语言模型替代人类评估者,对生成文本的质量进行自动化的判断和打分。Zheng等人(2023)在论文"Judging LLM-as-a-Judge"中系统性地验证了这一方法的可行性,发现GPT-4在多项评估任务上与人类评估者的一致性超过80%。
LLM-as-Judge在RAG生成评估中有三种典型的应用模式。第一种是成对比较模式(Pairwise Comparison),评估模型接收两个生成回答和原始问题,判断哪个回答更好。这种模式类似于人类评估中的A/B测试,适合用于模型选型和方案对比。第二种是单点评分模式(Single-Point Scoring),评估模型对单个回答在指定维度上给出1到5或1到10的分数。这种模式适合用于建立质量基线和追踪质量变化趋势。第三种是参照基准模式(Reference-Based Evaluation),评估模型将生成回答与人工编写的参考答案进行对比,衡量两者的一致程度。
尽管LLM-as-Judge方法大幅降低了评估成本,但它在应用中需要注意几个关键问题。首先是位置偏差(Position Bias),当进行成对比较时,评估模型倾向于偏好出现在前面的回答。其次是长度偏差(Length Bias),评估模型倾向于给更长的回答更高的分数,即使其中包含冗余信息。再次是自我偏好(Self-Preference),当评估模型与被评估模型相同时,评估结果可能存在系统性偏高。为了缓解这些偏差,2025至2026年的最佳实践包括:随机交换成对比较中的回答顺序、在提示词中明确要求忽略长度因素、使用与被评估模型不同的模型作为评判者。
在提示词设计方面,高质量的评估提示词应当包含以下要素:清晰定义评分维度和每个分数等级的含义、提供具体的评分示例(few-shot demonstration)、要求评估模型先给出分析推理过程再给出最终分数(Chain-of-Thought)、明确要求评估模型避免常见偏差。研究表明,经过精心设计的提示词可以使LLM-as-Judge与人类评估者的一致性提升10到15个百分点。
13.4 端到端RAG系统评估
检索评估和生成评估分别关注RAG系统的两个核心组件,但它们无法捕捉组件之间的交互效应。端到端评估将RAG系统视为一个整体,直接衡量从用户输入到最终输出的完整链路质量。这种评估方式更贴近真实使用场景,能够发现组件级评估难以揭示的系统性问题。
13.4.1 RAGAS、TruLens等评估框架
近年来,多个专门针对RAG系统的评估框架相继涌现,其中最具代表性的包括RAGAS、TruLens和DeepEval。这些框架提供了从指标定义到数据管理到可视化报告的全套工具链,大大降低了RAG评估的实施门槛。
RAGAS(Retrieval Augmented Generation Assessment)是由Es等人(2023)提出的开源评估框架,也是目前RAG评估领域应用最广泛的工具之一。RAGAS定义了一套完整的RAG评估指标体系,包括检索层面的上下文精确率和上下文召回率,生成层面的忠实度、答案相关性和答案正确性。RAGAS的核心设计理念是所有指标均可通过大语言模型自动计算,无需人工标注参考答案。这一特性使其特别适合大规模、高频次的评估场景。RAGAS的另一个优势是其模块化架构——用户可以根据需要选择性地使用部分指标,也可以自定义新的评估维度。在2025至2026年的版本迭代中,RAGAS引入了异步评估支持、多语言评估能力和与主流RAG框架(LlamaIndex、LangChain)的深度集成。
TruLens是由Truera公司开发的RAG评估与可观测性平台。与RAGAS侧重于离线批量评估不同,TruLens同时支持离线评估和在线监控,提供了从开发到生产的全生命周期评估能力。TruLens的核心概念是"反馈函数"(Feedback Function),用户可以定义各种自定义的评估逻辑,并将其应用于单个记录或批量数据。TruLens的另一个特色是其深度可观测性——它能够记录RAG系统中每一步的中间结果(包括检索查询、检索文档、提示词和生成回答),并通过可视化界面展示完整的调用链路,便于开发者进行根因分析。
DeepEval是Confident AI开源的RAG评估框架,其特点是内置了丰富的评估指标和严格的统计检验方法。DeepEval提供了超过15种预定义的评估指标,涵盖忠实度、相关性、毒性、偏见等多个维度。与RAGAS类似,DeepEval也采用大语言模型作为评判者,但它额外引入了假设检验的框架——每个评估指标不仅给出分数,还计算统计显著性,帮助团队判断质量变化是否具有统计意义而非随机波动。
下表对上述三个主流RAG评估框架进行了系统对比。
| 特性 | RAGAS | TruLens | DeepEval |
|---|---|---|---|
| 开源协议 | Apache 2.0 | MIT | Apache 2.0 |
| 评估模式 | 离线批量 | 离线+在线监控 | 离线批量 |
| 内置指标数量 | 约10种 | 可自定义 | 超过15种 |
| 统计检验 | 不支持 | 不支持 | 支持 |
| 可观测性 | 基础 | 强(完整调用链路) | 基础 |
| 多语言支持 | 支持 | 支持 | 支持 |
| 自定义指标 | 支持 | 支持 | 支持 |
| 与RAG框架集成 | LlamaIndex、LangChain | LangChain、LlamaIndex | LangChain |
| 适用阶段 | 开发与测试 | 开发、测试与生产 | 开发与测试 |
以下是使用RAGAS框架进行端到端RAG评估的Python代码示例。该示例展示了如何从问答对和检索上下文中计算忠实度和答案相关性两个核心指标。
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevance
# 准备评估数据
eval_data = {
"question": ["什么是RAG技术?", "向量数据库有哪些优势?"],
"answer": ["RAG是一种结合检索和生成的技术...",
"向量数据库在语义搜索方面具有优势..."],
"contexts": [
["RAG(Retrieval-Augmented Generation)由Lewis等人于2020年提出..."],
["向量数据库支持高维向量的高效相似度搜索..."]
]
}
dataset = Dataset.from_dict(eval_data)
# 执行评估
result = evaluate(dataset, metrics=[faithfulness, answer_relevance])
print(result)
13.4.2 评估数据集的构建
高质量的评估数据集是RAG评估的基础设施。一个完善的RAG评估数据集通常包含三元组:用户问题(question)、参考答案(reference answer)和支撑证据(supporting evidence)。其中,支撑证据可以是文档片段、段落ID或具体的文本范围,用于支持参考答案中的事实声明。
评估数据集的构建有两条主要路径。第一条是人工构建路径,由领域专家根据文档库编写问题和参考答案。这种方式的优点是数据质量高、覆盖场景真实,但成本高昂、扩展性差,通常只能构建数百到数千条数据。在企业实践中,人工构建的评估数据集通常聚焦于高频场景和关键业务流程,作为评估的"黄金标准"。第二条是自动生成路径,利用大语言模型根据文档内容自动生成问题、答案和证据三元组。这种方式的优点是效率高、成本低,可以快速生成大规模评估数据。RAGAS框架中内置的TestsetGenerator就是这一思路的实现——它接受文档集合作为输入,通过大语言模型生成多样化的评估数据集。
在2025至2026年的实践中,评估数据集的构建呈现出"人机协同"的趋势。典型的流程是:先用大语言模型自动生成初始评估数据,然后由人类评估者进行抽样审核和修正,最后将修正后的数据反馈给生成模型进行迭代优化。这种半自动化的方式在保证数据质量的同时,将构建效率提升了5到10倍。
评估数据集的质量保障需要注意以下几个关键维度。首先是多样性,评估数据应当覆盖不同的查询类型(事实型、推理型、多跳型、否定型等)、不同的文档领域和不同的难度等级。其次是无偏性,评估数据不应当对特定的检索策略或生成模型存在系统性偏好。再次是时效性,当文档库发生更新时,评估数据集也需要相应更新,以反映最新的知识状态。最后是难度梯度,一个理想的评估数据集应当包含简单、中等和困难三个梯度的样本,以便全面评估系统在不同难度水平上的表现。
端到端RAG评估的完整流程如下图所示,从评估数据集准备到指标计算再到结果分析,形成了一个闭环的评估-优化循环。
flowchart LR
A[准备评估数据集] --> B[执行RAG系统推理]
B --> C[收集中间结果与最终输出]
C --> D[计算检索评估指标]
C --> E[计算生成评估指标]
C --> F[计算端到端评估指标]
D --> G[生成评估报告]
E --> G
F --> G
G --> H[根因分析与优化建议]
H --> I[调整系统配置]
I --> B
13.5 自动化评估工具与平台
随着RAG技术在企业中的大规模落地,自动化评估工具与平台成为保障系统质量的关键基础设施。这些工具和平台将评估指标计算、数据管理、可视化报告和持续集成等功能整合为一体,使团队能够高效地实施标准化评估流程。
在开源工具层面,除了前文介绍的RAGAS、TruLens和DeepEval之外,2025至2026年间还涌现了一批专注于特定评估场景的工具。Phoenix(Arize AI开源)专注于RAG系统的可观测性和检索质量监控,提供了嵌入空间可视化、检索结果分析和延迟追踪等功能。Promptflow(微软开源)提供了端到端的LLM应用评估流水线,支持将评估步骤集成到CI/CD流程中。Deepchecks则提供了全面的LLM应用测试框架,涵盖数据完整性、模型性能和安全性等多个维度。
在商业平台层面,主流云厂商和AI基础设施公司都推出了RAG评估服务。AWS推出了Bedrock Evaluation功能,支持对基于Bedrock构建的RAG应用进行自动化评估。Google Cloud的Vertex AI Evaluation提供了类似的评估能力,并集成了Gemini系列模型作为评判者。LangSmith(LangChain公司)提供了从开发调试到生产监控的全套评估工具链,支持自定义评估指标和团队协作。这些商业平台通常提供更完善的用户界面、更高的执行性能和更丰富的集成选项,但需要考虑成本和数据隐私问题。
自动化评估平台的核心能力通常包括以下几个方面。第一是评估流水线编排,支持用户定义评估流程的各个步骤(数据加载、系统推理、指标计算、报告生成)及其依赖关系。第二是多维度指标管理,支持用户注册自定义指标、配置指标权重和设置阈值告警。第三是版本对比与回归检测,支持对不同版本的系统评估结果进行对比,自动识别质量退化。第四是协作与报告,支持团队成员共享评估结果、添加标注和评论,并生成可视化的评估报告。
在工程实践中,将自动化评估集成到持续集成和持续部署(CI/CD)流程中已成为行业最佳实践。典型的做法是在代码提交或模型更新时自动触发评估流水线,将评估结果与预设的质量门槛进行对比,只有当所有核心指标都达到门槛要求时才允许部署上线。这种评估驱动的开发流程(Evaluation-Driven Development)有效防止了质量退化,确保了RAG系统在快速迭代中的质量稳定性。
13.6 人工评估的设计与实施
尽管自动化评估工具在近年来取得了显著进步,但人工评估在RAG系统中仍然扮演着不可替代的角色。人工评估是自动化评估的校准基准——自动化评估指标的合理性和准确性需要通过人工评估来验证。同时,对于涉及安全性、合规性和用户体验等高度主观性的评估维度,人工评估仍然是最终的裁判。
人工评估的设计需要关注以下几个关键要素。首先是评估者选择,评估者应当具备相关领域的知识背景,能够准确判断回答的事实正确性和专业深度。在企业场景中,评估者通常包括产品经理、领域专家、客户成功工程师和最终用户代表。其次是评估指南制定,评估指南需要明确定义每个评分维度的含义、每个分数等级的判定标准和典型示例。清晰的评估指南是保证评估一致性的前提。再次是评估流程设计,包括评估者培训、试评校准、正式评估和一致性检验等环节。试评校准环节尤为重要——通过让多位评估者独立评估同一批样本并讨论分歧,可以有效统一评估标准。
在评估维度设计方面,RAG系统的人工评估通常涵盖以下维度:事实正确性(回答中的事实声明是否准确)、完整性(回答是否覆盖了问题的所有方面)、清晰度(回答是否易于理解)、有用性(回答是否对用户有实际帮助)和安全性(回答是否包含有害内容)。每个维度通常采用1到5分的李克特量表进行评分。为了提高评估效率,可以采用相对评估(ranking)而非绝对评估(rating)的方式——评估者只需判断两个回答哪个更好,而不需要给出具体的分数。研究表明,相对评估的一致性通常高于绝对评估。
人工评估与自动化评估的协同是RAG评估的最佳实践。典型的协同模式是:自动化评估负责大规模、高频次的质量监控,人工评估负责定期校准自动化指标和深度分析质量问题。当自动化评估检测到质量异常时,触发人工评估进行深入诊断。同时,人工评估的结果被用于持续优化自动化评估的提示词和评分标准。这种"自动化为主、人工为辅"的混合评估模式,在保证评估质量的同时有效控制了评估成本。
在2025至2026年的实践中,人工评估领域的一个重要趋势是评估流程的数字化和平台化。传统的基于电子表格的人工评估流程正在被专业的标注和评估平台所取代。这些平台提供了评估任务分配、进度追踪、一致性分析和评估者管理等功能,大幅提升了人工评估的效率和可管理性。此外,一些平台还支持将人工评估结果直接反馈到自动化评估模型的训练中,实现了人工评估与自动化评估的闭环优化。
延伸阅读
- Es, S., James, J., Espinosa-Anke, L., & Schockaert, S. (2023). RAGAS: Automated Evaluation of Retrieval Augmented Generation. Proceedings of EACL 2024.
- Zheng, L., Chiang, W.L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., & Xiong, Y. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. NeurIPS 2023.
- Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Kütükler, M., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
- TruLens documentation: www.trulens.org/
- DeepEval documentation: docs.confident-ai.com/
- RAGAS documentation: docs.ragas.io/
- Wang, Y., Kordi, Y., Mishra, S., Liu, A., Smith, N.A., Khashabi, D., & Hajishirzi, H. (2023). Self-Instruct: Aligning Language Models with Self-Generated Instructions. ACL 2023.
- Stelmakh, I., Wang, Y., Chen, M., Wu, T., Hajishirzi, H., & Das, D. (2024). ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems. NAACL 2024.