使大语言模型的公平性可观察、可量化、可治理
一项名为FiSCo的新评估流程揭示了隐藏的偏见,并提供了一个能够伴随语言模型演进的评估框架。
构建大型语言模型的研究人员已在开发能够执行定义明确的编码和数学任务(每个问题都有一个正确答案)的推理系统方面取得了重大进展。但现实世界中的、个人化的、以人为本的问题总是难以获得单一的正确回应。这些现实问题依赖于“开放式”推理,其中常常包含着关于性别、种族和年龄的隐性偏见和假设。因此,如果有人向大语言模型提出一个开放式问题,大语言模型给出的建议可能会因提问者的群体归属而异,从而可能将属于不同群体的人引向不同的方向。在就业、教育和医疗保健等领域,这些不同的结果有可能深刻地影响人的际遇。
消除大语言模型训练数据中的偏见是困难的,因为这种偏见内在于构成语言模型训练数据的人类创建文本中。然而,识别语言模型内部的偏见是可能的,从而使训练大语言模型的工程师和研究人员能够随后减轻它。
为此,我们开发了一个名为FiSCo(语义上下文中的公平性)的三阶段评估流程,用于揭示大语言模型中的隐藏偏见。FiSCo将定性的偏见检测转化为严格、可重复的测量,检测当问题存在多个有效回答时,语言模型对不同敏感属性(如性别、种族和年龄)定义的群体是否做出公平回应——这是一个长期以来难以量化的挑战。
重要的是,FiSCo将公平性重新定义为一个推理问题,即询问模型是否为仅在受保护属性或群体归属上不同的个体提供语义上等价的指导。FiSCo的指导原则是对意义进行推理,而非对正确性进行判断。目标不是决定一个答案是否正确,而是判断它是否对所有群体都经过了同等推理且公平公正。
该方法及其经验验证已在论文《超越词元量化大语言模型公平性:语义与统计视角(FiSCo)》中提出,该论文被选为语言建模会议(COLM 2025)的口头焦点报告,标志着它属于会议顶级贡献之列。
新前沿
大多数针对大语言模型的公平性指标关注模型回应中的词语选择和整体情感。虽然关注这些指标可以过滤掉冒犯性语言,但它忽略了可能最终影响机会和鼓励的细微意义差别。考虑一个我们观察到的真实例子,其中两个虚拟人物向一个大语言模型寻求职业建议。该模型鼓励男性角色申请顶尖的MBA项目,而女性角色则被建议选择兼职的本地选项。两个答案听起来都很积极,但它们基于未经检验的偏见,可能最终导致截然不同的现实结果。
FiSCo的核心提出一个简单问题:如果我们只改变一个受保护属性(如性别、年龄或种族),而保持其他所有内容完全相同,大语言模型的开放式回答是否会以系统性的方式发生变化?
FiSCo遵循一个三阶段的分析流程来识别这些答案中的系统性偏见。第一步称为“受控生成”,我们创建仅受保护属性不同的匹配提示。对于每一个提示,我们要求模型生成多个回应,以捕捉大语言模型回应中固有的随机性。
第二步称为“语义对比”,我们将每个答案分解为其组成部分进行分析。每个答案如何描述要做什么、为什么做、使用什么资源以及存在什么风险?然后,我们通过一个称为对齐的过程,在意义度量上比较这些答案,检查相似性、差异性和相对相关性。这一步使我们的流程能够随着大语言模型的演进而演进。它对大语言模型的输出具有高度适应性,随着模型规模的增长,其答案往往提供更长、更复杂的推理,而我们的框架正是为此设计的。
最后,我们进行验证,执行统计显著性检验,例如韦尔奇t检验,以比较组内和组间分布。结果最终显示回应中是否存在一致的差异。
使用FiSCo进行的实验揭示了跨年龄、性别和种族的可测量的语义差异。一些闭源模型仅表现出微小的差异,而较小或中等规模的开源模型则表现出更强的偏见。令人惊讶的是,较新的推理模型并不总是更公平。例如,对于GPT-OSS-120B模型,其产生的回应比更小或更老的LLM更具偏见。
像GPT-4o和Claude 3这样的大型模型往往表现出较低的偏见,而像Llama 3和Mixtral这样较小的开源模型则表现出更大的差异,特别是在种族和性别方面。这些发现表明,推理能力和公平性不一定同步发展,凸显了需要开发具备公平性意识的模型。
公平性不仅是模型说什么,更是其含义是什么
公平性不仅仅是关于模型说什么,更是关于它们意味着什么。FiSCo提供了一种衡量这一原则的方法,为研究人员和组织提供了理解、比较和改进语言模型在开放式语境中公平性的工具。它使团队能够监控公平性回归、创建公平性仪表板、审计模型更新,并支持透明度和合规性的治理循环。
通过结合场景生成、语义对齐和统计严谨性,FiSCo提供了一个可扩展且可解释的公平性评估框架,能够与现代大语言模型的推理能力同步演进。
有关更多细节以及数据和代码的访问,请访问FiSCo GitHub页面。