自主系统伦理评估新框架

2 阅读6分钟

某机构的研究人员开发了一种测试框架,能够精确定位AI决策支持系统在对待个人和社区时不公平的情况。

在像电网这样的大型系统中,评估AI模型建议在伦理层面与所有目标的一致性尤为困难。新的评估框架可用于测试自主系统的建议是否与人类定义的伦理标准高度一致。

人工智能正越来越多地用于辅助高风险环境中的决策优化。例如,一个自主系统可以找出在稳定电压的同时最小化成本的配电策略。但是,尽管这些AI驱动的输出在技术上可能最优,它们公平吗?如果某种低成本配电策略使弱势社区比高收入地区更容易遭受停电,该如何处理?

为帮助利益相关者在部署前快速定位潜在的伦理困境,某机构研究人员开发了一种自动化评估方法,该方法在可衡量的结果(如成本或可靠性)与定性或主观价值(如公平性)之间取得平衡。该系统将客观评估与用户定义的人类价值观分离开来,使用大语言模型作为人类代理来捕捉并整合利益相关者的偏好。这个自适应框架会选择最佳场景进行进一步评估,从而简化通常需要昂贵且耗时的手动工作流程。这些测试用例可以展示自主系统与人类价值观高度契合的情况,以及意外达不到伦理标准的场景。

“我们可以在AI系统中插入大量规则和护栏,但这些保障措施只能预防我们能想象到的事情。仅仅说‘我们用AI是因为它基于这些信息训练过’是不够的。我们希望开发一种更系统的方法来发现未知的未知,并在坏事发生之前预测它们。” 资深作者Chuchu Fan说道,她是某机构航空与航天系副教授,也是某实验室的首席研究员。

评估伦理

在像电网这样的大型系统中,评估AI模型建议在考虑所有目标情况下的伦理一致性尤其困难。大多数测试框架依赖于预先收集的数据,但关于主观伦理标准的标注数据往往难以获得。此外,由于伦理价值观和AI系统都在不断演变,基于书面规范或法规文件的静态评估方法需要频繁更新。

Fan和她的团队从不同角度处理了这个问题。基于他们先前评估机器人系统的工作,他们开发了一个实验设计框架,用以识别最具信息量的场景,然后由人类利益相关者对这些场景进行更仔细的评估。他们的两阶段系统称为“面向系统级伦理测试的可扩展实验设计”,结合了量化指标和伦理标准。它可以识别出既能有效满足可衡量要求又能与人类价值观高度契合的场景,反之亦然。

“我们不想把所有资源都花在随机评估上。因此,引导框架关注我们最关心的测试用例至关重要。” Li说道。

重要的是,SEED-SET不需要预先存在的评估数据,并且能适应多个目标。例如,一个电网可能有多个用户群,包括一个大型农村社区和一个数据中心。虽然这两个群体都可能希望获得低成本和可靠的电力,但每个群体从伦理角度看的优先级可能有很大差异。这些伦理标准可能没有被很好地定义,因此无法通过分析来衡量。电网运营商希望找到最具成本效益的策略,同时最好地满足所有利益相关者的主观伦理偏好。

SEED-SET通过将问题分解为两个层级结构来解决这一挑战。一个客观模型考虑系统在成本等可衡量指标上的表现。然后,一个考虑利益相关者判断(如感知公平性)的主观模型建立在客观评估之上。“我们方法的客观部分与AI系统相关,而主观部分与评估它的用户相关。通过以分层方式分解偏好,我们可以用更少的评估生成所需的场景。” Parashar说道。

编码主观性

为了执行主观评估,系统使用大语言模型作为人类评估者的代理。研究人员将每个用户群体的偏好编码成给模型的自然语言提示。大语言模型使用这些指令来比较两个场景,根据伦理标准选择更优选的设计。“在看过数百或数千个场景后,人类评估者会感到疲劳并在评估中变得不一致,因此我们转而使用基于大语言模型的策略。” Parashar解释道。

SEED-SET使用选定的场景来模拟整个系统(在这里是配电策略)。这些模拟结果指导它搜索下一个最佳候选场景进行测试。最终,SEED-SET智能地选出最具代表性的场景,这些场景要么符合、要么不符合客观指标和伦理标准。通过这种方式,用户可以分析AI系统的性能并调整其策略。例如,SEED-SET可以找出在高峰需求期间优先考虑高收入地区、导致贫困社区更容易停电的配电案例。

为了测试SEED-SET,研究人员评估了现实的自主系统,如AI驱动的电网和城市交通路由系统。他们测量了生成场景与伦理标准的一致性。在相同时间内,该系统生成的最优测试用例数量是基线策略的两倍以上,同时发现了许多其他方法忽略的场景。

“随着我们改变用户偏好,SEED-SET生成的场景集也发生了巨大变化。这表明评估策略对用户的偏好响应良好。” Parashar说。

为了衡量SEED-SET在实践中的有用性,研究人员需要开展用户研究,以验证其生成的场景是否有助于实际决策。除了进行这样的研究外,研究人员还计划探索使用更高效的模型,以便扩展到具有更多标准(例如评估大语言模型的决策)的更大问题上。

这项研究部分由某机构资助。FINISHED