最优传输及其在公平性方面的应用
随着人工智能中的公平性成为各行业越来越关注的领域,数据科学家应该考虑最优传输的价值。
分配资源的工具而开发的。最优运输理论本身的起源可以追溯到1781年,当时Gaspard Monge研究了为拿破仑军队建造工事的最有效的运土方式。就其总体而言,最优运输是一个问题,即如何将所有资源(如铁)从一组原点(铁矿)移动到一组目的点(铁厂),同时使资源的总距离最小。从数学上讲,我们想找到一个函数,将每个原点映射到目的地,同时使原点与相应目的地之间的总距离最小。尽管描述无伤大雅,但这个问题的原始表述,即蒙奇表述,在近200年里一直停滞不前。
第一次真正意义上的飞跃发生在20世纪40年代,当时一位名叫列昂尼德-康托罗维奇的苏联数学家将该问题的表述调整为现代版本,即现在所说的蒙日-康托罗维奇表述。这里的创新之处在于,允许同一矿区的一些铁进入不同的工厂。例如,一个矿区60%的铁可以进入一家工厂,其余40%的铁可以进入另一家工厂。在数学上,这不再是一个函数,因为同一原点现在被映射到可能的许多目的地。相反,这被称为 原产地分布和目的地分布之间的耦合 ,如下图所示;从蓝色分布(原产地)中选取一个矿,并沿图垂直移动,可以看到该铁被送往的工厂(目的地)的分布。
作为这一新发展的一部分,康托里维奇引入了一个重要的概念,即瓦瑟斯坦距离。与地图上两点之间的距离类似,瓦瑟斯坦距离(也被称为地球移动者距离,灵感来自其最初的背景)衡量两个分布的距离,例如本例中的蓝色和品红色分布。例如,如果所有的铁矿都离所有的铁厂很远,那么铁矿的分布(地点)和工厂的分布之间的瓦尔斯坦距离将非常大。即使有了这些新的改进,仍然不清楚是否真的存在一种运输资源的最佳方式,更不用说这种方式是什么。最后,在20世纪90年代,由于数学分析和优化的改进导致问题的部分解决,理论开始迅速发展。也是在这个时候,进入21世纪,最优运输开始逐渐进入其他领域,如粒子物理学、流体动力学,甚至统计学和机器学习。
现代最优传输
随着新开发的理论的爆发,最优传输已经发现自己处于 过去20年内出现的 许多新的统计 和 人工智能算法的中心 。在几乎所有的统计算法中,数据都被明确地或隐含地建模为具有某种潜在的概率分布。例如,如果你正在收集一个人在不同国家的收入数据,那么每个国家都有一个该人口收入的概率分布。如果我们想根据两个国家的人口收入分布进行比较,那么我们需要一种方法来衡量这两个分布的距离。这正是最优运输,特别是瓦瑟斯坦距离在数据科学中变得如此有用的原因。然而,Wasserstein距离并不是衡量两个概率分布相距多远的唯一标准。事实上,两个替代品--L-2距离和Kullback-Leibler(KL)发散--由于与物理学和信息理论的联系,在历史上更为常见。与这些替代方法相比,Wasserstein距离的关键优势在于它 在计算距离时 同时 考虑了数值 和它们的概率,而L-2距离和KL发散只考虑了概率。下图是一个关于三个虚构国家收入的人工数据集的例子。
在这种情况下,由于分布不重叠,蓝色和品色分布之间的L-2距离(或KL分歧)将与蓝色和绿色分布之间的L-2距离大致相同。另一方面,蓝色和品红色分布之间的Wasserstein距离将比蓝色和绿色分布之间的Wasserstein距离小得多,因为两者的数值有很大的差别(水平分离)。瓦瑟斯坦距离的这一特性使其非常适合于量化分布之间的差异,尤其是数据集。
用最优传输执行公平性
随着每天收集大量的数据,机器学习在许多行业中变得越来越普遍,数据科学家必须越来越小心,不要让他们的分析和算法在数据中延续现有的偏见和成见。例如,如果住房抵押贷款审批的数据集包含申请人的种族信息,但由于使用的方法或无意识的偏见,少数民族在收集过程中受到歧视,那么在该数据上训练的模型将在一定程度上反映潜在的偏见。优化运输可以 通过两种方式来帮助 减轻这种偏见 并 提高公平性 。第一种也是最简单的方式是使用Wasserstein距离来识别数据集中是否存在潜在的偏见。例如,我们可以估计女性获批贷款额度分布与男性获批贷款额度分布之间的瓦瑟斯坦距离,如果瓦瑟斯坦距离非常大,即有统计学意义,那么我们可能怀疑存在潜在的偏见。这种测试两组之间是否存在差异的想法,在统计学中被称为双样本假设检验。
另外,当基础数据集本身有偏差时,最优运输甚至可以用来强制执行模型中的公平性。从实践的角度来看,这是非常有用的,因为许多真实的数据集会表现出某种程度的偏见,而收集无偏见的数据可能是非常昂贵、耗时或不可行的。因此,使用我们现有的数据,无论它多么不完美,并试图确保我们的模型能够减轻这种偏差,这要实际得多。这是通过 在我们的模型中强制执行一个叫做 强人口平价的 约束来实现的 ,它迫使模型预测在统计上独立于任何敏感属性。做到这一点的一个方法是将模型预测的分布映射到不依赖于敏感属性的调整预测的分布。然而,调整预测也会改变模型的性能和准确性,因此,在模型性能和模型对敏感属性的依赖程度,即模型的公平程度之间存在一个权衡。
最佳运输的作用是尽可能少地改变预测值,以确保最佳的模型性能,同时还能保证新的预测值独立于敏感属性。这种调整后的模型预测的新分布被称为Wasserstein barycenter,它是过去十年来许多研究的主题。瓦尔斯坦中心类似于概率分布的平均值,即它使自己与所有其他分布的总距离最小。下面的插图显示了三个分布(绿色、蓝色和品红色)以及红色的瓦尔斯坦中心。
在上面的例子中,假设我们建立了一个模型来预测一个人的年龄和收入,该数据集包含一个单一的敏感属性,如婚姻状况,可以有三种可能的值:单身(蓝色)、已婚(绿色)和丧偶/离异(品红色)。散点图显示了这些不同数值的模型预测的分布。然而,我们想调整这些,使新的模型预测对一个人的婚姻状况是盲目的。我们可以使用最优传输将这些分布中的每一个映射到红色的arycenter。因为所有的值都被映射到同一个分布上,我们就不能再根据一个人的收入和年龄来判断他的婚姻状况,反之亦然。边界中心尽可能地保留了模型的保真度。
在企业和政府决策中使用的数据和机器学习模型越来越普遍 ,这导致了 新的社会和道德问题的出现,以确保其公平应用。许多数据集由于其收集方式的性质而含有某种偏见,因此,在这些数据集上训练的模型不能加剧这种偏见或任何历史上的歧视,这一点很重要。优化运输只是解决这个问题的一个方法,近年来,这个方法的发展势头很好。如今,有快速有效的方法来计算最优运输图和距离,使得这种方法适合现代大型数据集。随着我们越来越依赖基于数据的模型和洞察力,公平已经成为并将继续成为数据科学的核心问题,而最优运输将在实现这一目标中发挥关键作用。