大型语言模型人类评估中的认知偏差本文探讨了在人类评估大型语言模型（LLM）时，认知偏差对评估结果准确性的影响。文章提出了

在计算语言学会（ACL）会议上展示的一篇立场论文中，提出了一个用于更准确地进行大型语言模型（LLM）人类评估的框架。

大型语言模型（LLM）能够生成极其流畅的自然语言文本，而流畅性可能会欺骗人类思维，使其忽略内容的质量。例如，心理学研究表明，高度流畅的内容可能被视为比不太流畅的内容更真实、更有用。对流畅语言的偏好是认知偏差的一个例子，这是一种大脑采取的捷径，虽然在进化上有用，但可能导致系统性错误。在提交给本年度计算语言学协会（ACL）会议的立场论文中，通过比较现实世界中对LLM的评估与人类心理学研究，提炼出关于认知偏差的实践见解。科学的可靠性依赖于实验结果，在LLM时代，以正确的方式衡量正确的事物对于确保可靠性至关重要。例如，在确定LLM的输出在应用场景（如提供法律或医疗建议）中是否真实且有价值的实验里，考虑流畅性和用户的认知负荷（即心智负荷）等因素至关重要。如果冗长、流畅的内容导致用户忽略了关键性错误，给存在缺陷的内容打了高分，那么该实验设计就需要重新设计。

因此，对于评估真实性等任务，建议将内容分解为单个事实，让人工评估者仅判断给定事实是否正确——而不是对整个内容进行数字评分。在负责任的人工智能（RAI）评估中，考虑人类背景也很重要：有害性和刻板印象的评判因人而异。因此，模型的评估者应尽可能多样化。

在评估LLM时，探究其相对于特定用例的优势和劣势也至关重要。终端用户会向LLM提出各种问题。在医疗等安全关键型应用中，考虑到这种多样性尤为重要，因为在这些应用中，错误的代价可能很高。同样，同一个提示可以用多种方式表达，测试场景需要反映这种可变性。如果做不到这一点，得到的评估结果可能无法代表模型在真实环境中的表现。

评估标准也很重要。虽然存在通用的评估方法，如HHH基准测试，但针对特定领域的评估标准则更为深入。例如，在法律领域，可能需要了解模型根据证据预测案件结果的能力。

科学实验的另一个基本原则是可重复性，这一原则同样适用于LLM评估。虽然自动化评估流程是可重复的，但人工评估会因评估者的个性、背景、情绪和认知状态而异。在论文中，强调人工评估本身并不能确立一个“黄金标准”：需要理解评估系统的人类用户的认知行为。

最后，人工评估的实践方面是时间和成本。人工评估是一个昂贵的过程，了解评估的哪些方面可以自动化或简化，对于其更广泛的应用至关重要。

在论文中，将这些论点提炼为对大型语言模型进行人类评估的六个关键原则，并将其整合到缩写词ConSiDERS下，代表一致性（Consistency）、评分标准（Scoring criteria）、区分度（Differentiation）、体验（Experience）、责任（Responsibility）和可扩展性（Scalability）：

人类评估的一致性：人类评估的发现必须可靠且具有普遍性。
评分标准：评分标准必须既包含通用标准（如可读性），又要针对目标任务或领域的目标进行定制。
区分度：评估测试集必须能够区分生成式LLM的能力和弱点。
用户体验：评估必须考虑评估者的体验，包括他们在实验设计和结果解释中的情绪和认知偏差。
责任：评估需要符合负责任的人工智能标准，考虑偏见、安全性、鲁棒性和隐私等因素。
可扩展性：为了促进广泛采用，人类评估必须是可扩展的。

关于该框架应用的更多详细信息，请查阅论文《ConSiDERS——人类评估框架：重新思考生成式大型语言模型的人类评估》。FINISHED