LLM评估系列(一):别再死磕人工评估!破解使用LLM 评估器的三大核心难题

48 阅读5分钟

前言

LLM 评估器是利用LLM评估另一个 LLM 响应质量。如今,LLM能够解决越来越多的复杂任务或开放式的任务,例如长篇文本摘要、翻译以及多轮对话等。同时,传统的评估方法在评估LLM回答的好坏方面,效果大打折扣;如果使用人工评估或者微调特定任务的评估器,成本会非常高,并且难以扩展到其他任务上。因此,使用LLM作为评估器人越来越多,应用也日益广泛。

在学习关于 LLM 评估器的相关文献之前,首先需要先讨论几个问题,这些问题将帮助我们理解研究结果,并弄清楚如何使用 LLM 评估器。

一、对比的基准是什么?

首先我们要将 LLM 评估器与何种基准进行对比?是将其与人工评估对比,还是与更小的、经过微调的评估模型对比?在准确性和速度上,前者比后者更容易达到达到基准水平。

多数人会选择以人工评估做为基准参考,此时我们的目标是让LLM评估结果与人工评估的结果尽可能一致。相较于人工评估,LLM 评估的速度和成本可降低数个数量级,且可靠性更高。

但假如你的基准是经微调的评估模型,那么 LLM 评估器的目标就是达到与微调评估模型的召回率和精确率,这一基准的实现难度会更高。除此之外,LLM 评估器很难达到小型评估器的毫秒级延迟,尤其是当LLM需要运用思维链时,而且LLM 评估器的单次推理成本可能也更高。

二、如何使用LLM进行评估?

其次,我们将如何通过 LLM 评估器对大模型响应进行评分?至少有三种方法可以满足对准确性、可靠性和灵活性的要求:

  1. 直接评分法: LLM仅对单个响应进行评估,无需与其他响应对比。这使得它比成对比较法更具通用性。由于它直接对输出内容进行评分,因此更适合用于客观评估,例如衡量对源文本的忠实程度,或是检测是否存在违法法律情况,如含有种族偏见的内容。
  2. 成对比较法: LLM在两个响应中选出更好响应,或判定两者不分伯仲。这种方法在主观性评估中尤为常用,且可靠性更高,例如评估说服力、语气、连贯性等方面。研究表明,相较于直接评分法,成对比较能结果更稳定,同时与人工标注之间的偏差也更小。
  3. 基于答案的评估: LLM将待评估的响应与标准参考答案进行比对,答案中包含了响应中应当涵盖的所有信息。LLM会衡量响应与答案之间的匹配度,本质上是在执行一种更为复杂的模糊匹配操作。

这三个方法都是不可互相替代的,例如假如评估忠实度或指令遵循度时,就无法使用成对比较法,一个响应要么忠实于给定的上下文,要么不忠实,不存在中间状态;同理,基于答案的评估需要提供标准答案,而直接评分法和成对比较法则无需如此。

三、如何评估LLM评估器的效果?

最后,我们应当采用哪些指标来评判LLM评估器的效果?业界常用的是分类指标和相关性指标。

  1. 分类指标: 分类指标的评测更简单,解读起来也更加容易。

    比如在评估响应的与事实一致性或偏见时,我们可以衡量LLM评估器的准召率;或者在成对比较法时,可以评估LLM评估器能否选出最优答案的能力。无论哪种情况,我们都能将其转化为二元任务,并依托成熟可靠的分类评测指标其衡量效果。

  2. 相关性指标: 相关性指标的解读更为复杂,常用的相关性指标包括科恩系数(Cohen’s kappa)、肯德尔系数(Kendall’s tau)和斯皮尔曼系数(Spearman’s rho)。

    • 科恩系数: 适用于评估评分者在非排序类数据”(二元 / 分类数据)上一致性,且能够能到排除随机因素后的真实一致性,但是无法评估序数类型数据(如满意度评分)。

    • 肯德尔系数: 适用于序数类型数据(如李克特量表)的相关性评估,评估所有两两成对的数据在排序上是否一致,能够排除随机因素。因为其只考虑排序是否一致,并不关心具体的分数,也不会受到排名差异大小的影响,对于极端数据抗干扰性强。

    • 斯皮尔曼系: 同样也是适用于序数类型数据的相关性评估,不会排除随机因素,同时会受到排名差异大小的影响,对于极端数据抗干扰性弱。

    与分类指标相比,相关性指标更难以直接转化为生产环境中的具体指标,比如评估器对错误答案的召回率是多少?误报率又如何?因此,如果在条件允许,尽量让评估器返回二元输出(A或B的答案),这样既能提升评估效果,也便于使用指标监测效果。