大型语言模型人类评估中的认知偏差

4 阅读4分钟

在计算语言学会(ACL)会议上展示的一篇立场论文中,提出了一个用于更准确地进行大型语言模型(LLM)人类评估的框架。

大型语言模型(LLM)能够生成极其流畅的自然语言文本,而流畅性可能会欺骗人类思维,使其忽略内容的质量。例如,心理学研究表明,高度流畅的内容可能被视为比不太流畅的内容更真实、更有用。对流畅语言的偏好是认知偏差的一个例子,这是一种大脑采取的捷径,虽然在进化上有用,但可能导致系统性错误。在提交给本年度计算语言学协会(ACL)会议的立场论文中,通过比较现实世界中对LLM的评估与人类心理学研究,提炼出关于认知偏差的实践见解。科学的可靠性依赖于实验结果,在LLM时代,以正确的方式衡量正确的事物对于确保可靠性至关重要。例如,在确定LLM的输出在应用场景(如提供法律或医疗建议)中是否真实且有价值的实验里,考虑流畅性和用户的认知负荷(即心智负荷)等因素至关重要。如果冗长、流畅的内容导致用户忽略了关键性错误,给存在缺陷的内容打了高分,那么该实验设计就需要重新设计。

因此,对于评估真实性等任务,建议将内容分解为单个事实,让人工评估者仅判断给定事实是否正确——而不是对整个内容进行数字评分。在负责任的人工智能(RAI)评估中,考虑人类背景也很重要:有害性和刻板印象的评判因人而异。因此,模型的评估者应尽可能多样化。

在评估LLM时,探究其相对于特定用例的优势和劣势也至关重要。终端用户会向LLM提出各种问题。在医疗等安全关键型应用中,考虑到这种多样性尤为重要,因为在这些应用中,错误的代价可能很高。同样,同一个提示可以用多种方式表达,测试场景需要反映这种可变性。如果做不到这一点,得到的评估结果可能无法代表模型在真实环境中的表现。

评估标准也很重要。虽然存在通用的评估方法,如HHH基准测试,但针对特定领域的评估标准则更为深入。例如,在法律领域,可能需要了解模型根据证据预测案件结果的能力。

科学实验的另一个基本原则是可重复性,这一原则同样适用于LLM评估。虽然自动化评估流程是可重复的,但人工评估会因评估者的个性、背景、情绪和认知状态而异。在论文中,强调人工评估本身并不能确立一个“黄金标准”:需要理解评估系统的人类用户的认知行为。

最后,人工评估的实践方面是时间和成本。人工评估是一个昂贵的过程,了解评估的哪些方面可以自动化或简化,对于其更广泛的应用至关重要。

在论文中,将这些论点提炼为对大型语言模型进行人类评估的六个关键原则,并将其整合到缩写词ConSiDERS下,代表一致性(Consistency)、评分标准(Scoring criteria)、区分度(Differentiation)、体验(Experience)、责任(Responsibility)和可扩展性(Scalability):

  • 人类评估的一致性:人类评估的发现必须可靠且具有普遍性。
  • 评分标准:评分标准必须既包含通用标准(如可读性),又要针对目标任务或领域的目标进行定制。
  • 区分度:评估测试集必须能够区分生成式LLM的能力和弱点。
  • 用户体验:评估必须考虑评估者的体验,包括他们在实验设计和结果解释中的情绪和认知偏差。
  • 责任:评估需要符合负责任的人工智能标准,考虑偏见、安全性、鲁棒性和隐私等因素。
  • 可扩展性:为了促进广泛采用,人类评估必须是可扩展的。

关于该框架应用的更多详细信息,请查阅论文《ConSiDERS——人类评估框架:重新思考生成式大型语言模型的人类评估》。FINISHED