大型语言模型(LLM)能够生成极其流畅的自然语言文本,而这种流畅性可能会蒙蔽人类的思维,使其忽略内容的质量。例如,心理学研究表明,高度流畅的内容可能被视为比不够流畅的内容更真实、更有用。
对流畅言语的偏好是认知偏差的一个例子,即大脑采取的一种捷径,这种捷径虽然在进化上有用,但也可能导致系统性错误。在本年度计算语言学协会(ACL)会议上发表的一篇立场论文中,通过将LLM的现实世界评估与人类心理学研究进行比较,得出了关于认知偏差的实践性见解。
科学依赖于实验结果的可信度,在LLM时代,以正确的方式衡量正确的指标对于确保可信度至关重要。例如,在一个旨在确定LLM的输出在特定应用场景(如提供法律或医疗建议)中是否真实有用的实验中,考虑诸如流畅度和用户的认知负荷等因素至关重要。如果冗长、流畅的内容导致用户忽略了关键错误,并对有缺陷的内容给予高分,那么实验设计就需要重新调整。
因此,对于评估真实性等任务,建议将内容分解为单个事实,并由人类评估者仅判断给定事实是否正确——而不是为整个内容分配一个数值评分。在负责任的人工智能(RAI)评估中,考虑人类背景也很重要:有毒和刻板印象是由评估者主观判断的。因此,模型的评估者应尽可能多样化。
在评估LLM时,探询它们相对于特定用例的优缺点也至关重要。最终用户会向LLM提出各种问题。在医疗等安全关键型应用中,考虑这种多样性尤为重要,因为这些领域错误成本可能很高。同样,同一个提示可以用多种方式构建,测试场景需要反映这种可变性。如果不能做到这一点,得到的评估数据可能无法代表模型在实际应用中的性能。
评估标准也同样重要。虽然有通用的优秀评估方法,如“有帮助、诚实、无害”(HHH)基准,但特定领域的评估标准可以更加深入。例如,在法律领域,可能需要了解模型在给定证据的情况下预测案件结果的能力有多强。
科学实验的另一个基本原则是可重复性,这一原则同样适用于LLM评估。虽然自动化评估程序是可重复的,但人工评估可能会因评估者的个性、背景、情绪和认知状态而异。论文强调,人类评估本身并不能建立一个黄金标准:需要理解评估我们系统的用户的认知行为。
最后,人类评估的实践性体现在时间和成本上。人工评估是一个昂贵的过程,了解评估的哪些方面可以自动化或简化对于更广泛地采用至关重要。
在论文中,作者将这些论点提炼为对大型语言模型进行人工评估的六个关键原则,并将其归纳为首字母缩写词 ConSiDERS,代表一致性、评分标准、区分度、用户体验、责任和可扩展性:
- 一致性:人类评估的结果必须可靠且可推广。
- 评分标准:评分标准必须既包含通用标准(如可读性),又要根据目标任务或领域的目标进行调整。
- 区分度:评估测试集必须能够区分生成式LLM的能力和弱点。
- 用户体验:在实验设计和结果解释中,评估必须考虑评估者的体验,包括他们的情绪和认知偏差。
- 责任:评估需要符合负责任的人工智能标准,考虑偏见、安全性、健壮性和隐私等因素。
- 可扩展性:为促进广泛采用,人类评估必须是可扩展的。
关于该框架应用的更多详细信息,请参阅论文“ConSiDERS——人类评估框架:重新思考生成式大型语言模型的人类评估”。FINISHED