当我们在三年前加入某中心AI/ML团队担任学者时,早已在如今被称为"负责任AI"的领域进行科学研究。我们曾发表多篇论文提出公平性的数学定义和强制执行这些定义的机器学习训练算法,以及确保训练模型强隐私保护的方法。我们精通可解释性和鲁棒性等相关主题,属于新兴的负责任AI研究社区的常驻成员。我们甚至就这些主题撰写了一本面向大众的书籍,试图向更广泛的受众解释其重要性。
因此,我们于2020年来到某中心,期待将我们的专业知识和方法应用于这里正在进行的负责任AI工作——至少这是我们初来时的想法。但我们的旅程将我们带到了一个截然不同的地方,比预期更具影响力和趣味性。并非研究领域中的定义和算法不相关——它们确实相关——但它们只是由数据、模型、服务、企业客户和最终用户组成的复杂AI工作流中的一个组成部分。由于某中心在云计算特别是云AI服务方面的开创性角色,它在这一工作流中处于独特位置。
我们在这里的时间揭示了一些我们之前未意识到的实际挑战。这些挑战包括多样化的数据模态、与客户和最终用户的"最后一公里"效应,以及最近出现的AI行动主义。如同产业界与学术界的许多良性互动一样,我们在某中心学到的知识以健康的方式改变了我们的研究议程。
模态的重要性
我们最早获得的重要实践经验可以概括为"模态重要性"。我们指的是AI服务运作的特定媒介(如视觉图像或口头/书面语言)在从性能和负责任AI角度分析和理解时极为重要。
特别考虑训练模型需要"公平"或没有显著人口统计偏差的期望。许多关于ML公平性的科学文献假设用于比较不同群体性能的特征(可能包括性别、种族、年龄和其他属性)在训练和测试数据集中容易获得,或者可以准确估计。
如果确实如此(就像某些类似电子表格的"表格"数据集记录医疗或财务记录时,人的年龄和性别可能是明确的列),我们可以更容易地测试训练模型的偏差。例如,在医疗诊断应用中,我们可能评估模型以确保不同性别间的错误率大致相同。如果这些比率不够接近,我们可以以各种方式增强数据或重新训练模型,直到评估满意为止。
但许多云AI/ML服务处理的数据根本不包含明确的人口统计信息。相反,这些服务存在于完全不同的模态中,如语音、自然语言和视觉。诸如我们的语音识别和转录服务等应用将捕捉口语的频率时间序列作为输入。因此,数据中没有诸如性别、种族或年龄等内容的直接注释。
但从语音数据中可以更容易检测到的是地区方言和口音——仅北美英语就有数十种。英语语音也可能具有非母语口音,受说话者第一语言的影响比他们当前居住地区更大。考虑到第一语言数量庞大和说话者的国际流动性,这呈现了更加多样化的景观。虽然口语口音可能与一个或多个祖先群体弱相关或关联,但它们通常无法提供年龄和性别等信息(带有费城口音的说话者可能年轻或年长;男性、女性或非二元性别等)。最后,即使是特定人的语音也可能表现出许多其他变异来源,如情境压力和疲劳。
面对如此多不同的口音和其他变动部分,在像语音转录这样复杂的任务中,负责任AI从业者该怎么做?在某中心,我们的答案是根据任务和数据本身的特点来应对,这涉及一些繁重工作:精心收集来自具有不同口音的大规模代表性说话者群体的样本,并仔细转录每个单词。"代表性"在这里很重要:虽然(例如)从受过发音训练的专业演员那里收集这些数据可能更便捷,但这样的数据并不典型于现实世界中的口语。
我们还收集在其他重要维度上表现出变异性的语音数据,包括录制期间的声学条件(不同数量和类型的背景噪声,通过不同移动电话手持设备进行的录制,其麦克风质量可能不同等)。组合的绝对数量使得获得足够覆盖具有挑战性。(在某些领域如计算机视觉中,类似的覆盖问题——跨视觉属性如肤色、光照条件、室内与室外设置等的变异性——导致了对合成数据的兴趣增加,以增强人类生成的数据,包括在某中心用于公平性测试。)
一旦经过整理,这样的数据集可用于训练不仅整体表现良好,而且在不同口音间表现大致相等的转录模型。这里的"表现良好"意味着比简单预测任务更复杂的东西;语音识别通常使用诸如词错误率的度量。除了上述所有整理和注释之外,我们还通过自我报告的说话者人口统计信息注释一些数据,以确保我们不仅按口音公平,而且按种族和性别公平,如服务附带的服务卡中详细说明。
我们在这里的总体观点是双重的。首先,虽然作为社会,我们在谈论和评估公平时倾向于关注诸如种族和性别等维度,但有时数据根本不允许这样的评估,并且将这样的维度归因于数据(例如,试图从语音信号推断种族)可能不是好主意。其次,在这种情况下,数据可能引导我们走向可能更与任务相关的替代公平性概念,如跨方言和口音的单词错误率。
负责任AI的最后一公里
特定个体属性的可获取性或不可获取性(或不应获取)并不是AI开发者可能无法直接控制的唯一事物——特别是在云计算时代。正如我们上面所见,覆盖所有你能预期的事物是具有挑战性的工作。预期所有事物则更加困难。
供应链短语"最后一公里"指的是"上游"商品和产品提供商可能对直接连接到最终用户或消费者的"下游"供应商控制有限。像某中心这样的云提供商的出现创造了具有自身最后一公里挑战的AI服务供应链。
某中心AI/ML为企业客户提供诸如语音转录等服务的API访问,因为许多客户希望将此类服务集成到自己的工作流中,但没有资源、专业知识或兴趣从头构建它们。这些企业客户位于像某中心这样的通用云服务提供商和技术的最终最终用户之间。例如,医疗保健系统可能希望提供针对医学词汇优化的云语音转录服务,以允许医生在查房期间进行口头记录。
尽管我们在某中心勤奋地对我们的服务和基础模型进行实战测试,以实现最先进的性能、公平性和其他负责任AI维度,但显然不可能预期所有可能的下游用例和条件。继续我们的医疗保健示例,也许某家医院的某个楼层有新的专业成像设备,以特定的规律性和声学频率发出背景噪声。如果这些确切条件既未在训练数据中也未在测试数据中表示,那么总体词错误率可能不仅更高,而且可能在不同口音和方言间存在差异。
这样的最后一公里效应可能与企业客户本身一样多样化。随着时间推移和对这些条件的认识,我们可以使用有针对性的训练数据和客户侧测试来改进下游性能。但由于新用例的激增,这是一个不断发展的过程,而不是一个永远"完成"的过程。
AI行动主义:从漏洞到偏见
不仅是云客户的最后一公里可能呈现与训练和测试期间不同的条件。我们生活在一个(健康的)可能被称为AI行动主义的时代,其中不仅企业而且个体公民——包括科学家、记者和非营利组织成员——可以获得ML服务和模型的API或开源访问,并在自己整理的数据集上执行自己的评估。此类测试通常旨在突出技术的弱点,包括整体性能和公平性的不足,以及潜在的安全和隐私漏洞。因此,它们通常是在AI开发者不知情的情况下进行的,并可能首先在研究主流媒体渠道公开。事实上,我们过去曾是此类批评性公开报道的接收方。
迄今为止,AI开发者和行动主义者之间的动态有些对抗性:行动主义者设计并进行对已部署AI模型的私人实验评估,并在开放论坛中报告他们的发现,开发者则留下来评估这些主张并对他们的技术进行任何必要的改进。这种动态让人想起传统软件和安全开发者与道德和非道德黑客社区之间的历史紧张关系,其中外部方探测软件、操作系统和其他平台中的漏洞,要么为了公共利益暴露它们,要么私下利用它们牟利。
随着时间的推移,软件社区已经开发出机制来改变这些动态,使其更具生产力而非对抗性,特别是以漏洞赏金计划的形式。这些是正式的活动或竞赛,其中软件开发者邀请黑客社区故意在他们的技术中寻找漏洞,并为向开发者报告和描述它们提供财务或其他奖励。
在过去的几年中,漏洞赏金背后的思想和动机已被AI开发社区采纳和调整,以"偏见赏金"的形式出现。参与者不是寻找传统软件中的漏洞,而是被邀请帮助识别训练过的ML模型和系统中的人口统计或其他偏见。这一想法的早期版本是非正式的、持续时间短的黑客松,专注于寻找模型表现不佳的数据集子集。但在某中心和其他地方孵化的更近期提案包括本质上更正式和算法化的变体。生成式AI的模型爆炸、兴趣和担忧也导致了更规范化和制度化的负责任AI方法论,如用于评估大语言模型的HELM框架。
我们将这些近期发展——AI开发者向比企业客户更广泛的利益相关者社区开放他们的技术及其评估,以及这些利益相关者在以技术和非技术方式识别必要改进方面发挥积极作用——视为健康和有机的,是复杂且不断发展的AI产业的自然结果。事实上,此类合作符合我们最近对外部测试和模型红队的白宫承诺。
负责任AI既不是一个可以一劳永逸"解决"的问题,也不是一个可以孤立于从开发者到他们的客户再到最终用户和整个社会的管道中单个位置的问题。开发者当然是必须建立和实施最佳实践并捍卫负责任AI原则的第一线。但AI产业长期成功的关键在于所有受其影响者之间的社区、沟通和合作。