目录与链接
6.因果公平性
机器学习模型越来越多地帮助做出改变人生的决定,如假释听证会、贷款申请和大学招生。这些领域的决定可能具有伦理或法律影响,因此模范从业者有必要考虑其工作的社会影响。
如果用于训练算法的数据包含针对特定种族、性别或其他群体的人口统计差异,该算法也同样需要考虑公平性。算法公平性旨在提供可用于评估模型公平性以及缓解有害差异的标准,而不是将量化预测者所需统计特性的措施最大化。
因果关系在调查模型的公平性方面扮演着重要的角色,因为它通常取决于数据的因果结构 : 对于一些因果图来说,包括某些输入特征是公平的,而对于另一些则不是。基于统计的公平性度量忘记了区分输入变量之间的不同因果关系,并且很容易在存在统计异常 (如辛普森悖论 [151]) 的情况下检测不到算法偏差与歧视。
例如设想我们不考虑数据的因果结构,而是简单地降低或丢弃敏感属性。这样做可能不会影响到算法的公平性,因为敏感属性往往与其他属性相关。特别是在较大的特征空间中,对于其他特征,敏感属性通常是冗余的。在这样的设置中,分类器可以简单地根据其他特征找到冗余编码。
Barocas 等人 [152] 用下面的例子来说明使用敏感属性学习分类器的问题,而无需明确要求 : 考虑一家虚构的初创公司,它开始预测你从基因组中获得的收入。DNA很可能比随机猜测更能用来预测收入,因为 DNA 编码了有关祖先的信息,而这些信息又与美国等一些国家的收入相关。因此,学习的量词可以以完全隐含的方式使用祖先。从基因组中去除多余的祖先编码是一项艰巨的任务,不能通过移除几个单独的遗传标记来完成。
相反,通过包含敏感属性及其与其他输入变量的因果关系,我们可以对它们进行干预并分析改变它们的值如何影响模型的预测。
在本章中,我们讨论了两类基于因果关系的公平标准 : 反事实 (CFF) 和干预公平 (IF)。我们从 CFF 开始,因为它是后者的基础。从广义上讲,CFF 标准通过分析反事实来评估受保护属性对结果变量的不公平影响。这些标准主要根据反事实的构建方式而有所不同。 IF 方法旨在放宽 CFF 所需的一些强假设,目的是使它们在现实生活中更加实用。
因果解释公式分类 | 标准 | 核心思想 | 参引 |
---|---|---|---|
Ctf. | 反事实公平性(CF) | 如果在(A)实际世界和(b)反事实世界(该个人属于不同的人口群体)中都是相同的决定,则该决定对个人是公平的 | 章节6.2.1 |
路径特定的CF | 通过区分因果DAG中的公平和不公平路径来细化CF | 章节6.2.2 | |
因果解释公式 | 将条件随机性分解为直接、间接和虚假判别 | 章节6.2.3 | |
Int. | 代理公平 | 直接干预受保护属性的代理变量,而不是后者 | 章节6.3.1 |
合理的公平 | 开辟了不需要完整的因果模型的可能性,只需要将变量分离为允许的和不可接受的 | 章节6.3.2 |
表 6.1.因果公正性标准概述
标记
个体的受保护 (或“敏感”) 属性
个体的剩余属性
个体的外生属性
和 之间的属性
结果
预测的结果
6.1 为什么我们需要算法公正性中的因果关系?
图 6.1.反事实公正性考虑的两种可能的因果图 [153] : (a) 显示了只有潜在混杂因素 U 导致结果的设置;相反,(b) 认为 U 和 X 都影响 Y。
Kusner 等人 [153] 使用图 6.1 中对应图表的两个示例性场景,说明公平预测者必须如何解释正确的因果图。
在这两种情况下,使用看似公平的属性 X 来预测 Y 仍然是不公平的。
图 6.1.a 展示了只有潜在混杂物 U 导致 Y 的设置。例如,假设一家汽车保险公司想要通过预测车主的事故率 Y 来为车主定价,假设存在一个与激进驾驶 U 相对应的未观察到的变量,该变量 (a) 增加了司机发生事故的可能性,(b) 增加了个人更喜欢红色汽车的可能性,X 捕捉到了这一点。此外,具有特定人口特征的人可能更喜欢驾驶红色汽车。使用红色汽车特征 X 来预测事故率 Y 似乎不公平,因为这些人并不比其他任何人更有可能咄咄逼人或发生事故。
图 6.1.b 说明了 U 和 X 都影响结果 Y 的情况。考虑一种犯罪预测情景,在该情景中,市政当局希望按社区估计犯罪率,以便分配警力资源。该数据集包含居民的社区 X、人口统计数据 A 和指示刑事逮捕历史的二进制标签 Y。由于历史上的隔离住房,地点 X 取决于 A,而且地点 X 没有同样多的警察资源 (未被观察到)。逮捕人数 Y 在警力资源较多的地区较高。U 代表影响一个人可能居住的地方以及他们被逮捕的可能性的社会经济因素和警务做法的总和。虽然 Y 依赖于 X,但预测器 可能会受到 A 的值的影响,而这些值不是由 U 解释的。
对于另一个更详尽的例子,包括使用具体数据计算统计和因果公平标准,我们引导读者阅读 Makhlouf 等人 的 [151]。
6.2 反事实的公平标准
6.2.1 Kusner 等人 [153] 的反事实公平
我们从 Kusner 等人 [153] 提出的反事实公平准则开始,该准则确保具有 特征的个体在现实世界中得到的结果 Y 的预测因子与在反事实世界中只有个体 的受保护属性发生变化,其他条件不变时得到的预测因子是相同的。换句话说,预测器对两个反事实都是不变的。回顾第 2.3.2 节对反事实的定义,我们将该标准形式化如下。
定义 6.2.1.反事实的公平 [153]
假设潜在的外生变量 U 不是由任何 X 或 A 引起的,我们说预测器 是反事实公平,如果
我们将式子 (6.1) 的最终表达式解释为,对于我们观察到的特征 x 和受保护属性 a,如果受保护属性是 而不是 a, 预测给定个体的 Y 的概率。对第一个表达式的类似解释断言,它等于 。
6.2.2 指定路径的反事实公平
前面提到的反事实公平准则 (定义6.2.1) 认为敏感属性对决策的整个影响是有问题的。然而在某些情况下,情况并非如此,我们希望更精确地了解它们对不公平预测的贡献。Nabi 和 Shpitser [154] 指出,歧视的存在可以被形式化为协变量在某些因果途径上对结果的影响,但不是所有的因果途径。
更具体地说,Chiappa [155] 用著名的伯克利性别偏见案例证实了这一担忧,该案例通常被用作辛普森悖论的教科书案例。在这种情况下,大学招生数据显示,总体上对男性申请者存在偏见。但是,女生申请的专业竞争激烈,录取率较低,因此被拒的情况比男生多。这样的性别影响通过部门选择是不公平的。
基于此,Chiappa [155] 提出了路径特定的反事实公平,这是一种更细粒度的公平标准,处理在公平和不公平路径上影响决策的敏感属性。它指出,如果一个决定与在反事实世界中做出的决定相一致,那么这个决定对一个人来说是公平的,因为在反事实世界中,不公平路径上的敏感属性是不同的。
定义 6.2.2.路径特定Cf.公平性 [154, 155]
定义 为 中从 A 到 Y 的所有有向路径的集合,对应于 A 引起 Y 的所有不公平事件链。设 是 中不存在于任何路径上的协变量的子集。然后当路径集 对 均满足下式条件时,预测器 是路径特定的反事实公平的。
6.2.3 因果解释公式
Zhang 和 Bareinboim [156] 提出了因果解释公式,该公式允许从业者将总的观察到的决策差异分解为三个细粒度的度量。
首先,作者假设有一个弱势群体 和一个优势群体 。进一步,W 表示 A 和 Y 之间所有观察到的中间变量。接下来,它们定义了不同的效果;如果影响非零,那么预测器是不公平的。它们区分了直接和间接的虚假效应;后者考虑 A 和 Y 之间的后门路径,即箭头指向 A 的路径。
定义 6.2.3.反事实效应 [156]
我们将 A 和 Y 之间所有观察到的中介变量记为 W,则直接效应 (DE)、间接效应 (IE) 和杂散效应 (SE) 分别定义为:
接下来,他们的目标是通过将总变化 (TV) 分解成不同的影响,提供不同影响之间相互关联的直觉。TV 是被动观察 A 从 到 变化时 Y 条件分布的差值。形式上,事件 在 上的 TV (基线 被定义为 :
定义 6.2.4.因果解释公式 [156]
总变化 (TV)、杂散效应 (SE)、间接效应 (IE) 和直接效应 (DE) 相关为
例如第一个公式表明,自然获得 的个体所经历的总差距等于通过虚假歧视所经历的差距,加上由于间接歧视而失去的优势,减去如果没有直接歧视就会获得的优势。
6.3 介入公平
反事实公平涉及在个人层面模拟反事实是困难的。例如 [157,158] 指出,种族或性别的影响即使在群体水平上也很难建模。因此,对这些 (通常定义不明确的) 保护属性的干预通常是难以想象的。Kilbertus [159] 通过以下思维实验说明了这一点 : 想象一个孕妇的求职申请被拒绝。我们能想象她作为一个男人在那个世界里的生活吗?她出生时是男性还是在招聘过程中被视为男性?她现在怀孕了吗?如果我们比较 (虚构的) 彼此差异巨大的个体,反事实公平的概念就变得毫无意义。
6.3.1 代理公平
为了解决这些问题,Kilbertus 等人 [160] 研究了人群水平的干预分布,他们称之为代理歧视。其思想是将受保护的属性 A 与其潜在的代理 (如名称、视觉特性、家庭使用的语言等) 分离开来,因此基于代理变量的干预呈现了一个更易于管理的问题。在实践中,我们经常被限制在 A 的不完美度量上,因此将根概念从代理中分离出来是谨慎的 [159]。当然,在假设的因果图中,代理 P 是 A 的后代。
定义 6.3.1.代理公平性 [159]
预测器 在代理 P 的基础上没有表现出代理歧视如果
6.3.2 公平合理性
之前所有的方法都需要因果图的知识。为了处理因果图缺失但给出了部分可接受变量知识的情况,Salimi 等人 [161] 将介入公平形式化为数据库修复问题。他们提出了数据预处理算法,为在预处理训练数据上训练的分类器提供公平性保证。
首先,他们假设给出了因果图,并定义了 K-公平准则,该准则捕捉了群体层面的公平,类似于代理公平。
定义 6.3.2.K-公平准则 [161]
对于一组属性 ,我们说预测器 对于受保护属性 A 是 K-公平的,如果 :
如果一个模型对每个集合 K 都是 K-公平的,那么它就被认为是干涉公平的。这个概念与代理公平不同,它确保了在通过将其他变量固定到某些任意值而获得的任何配置中,A 不会影响 Y。与反事实公平相反,它不试图捕捉个人层面的公平,因此它采用了第二级干预。
接下来,他们定义了正当公平标准,允许用户只区分变量为可接受和不可接受。前一个变量是受保护属性 A 的一个子集,通过它仍然允许影响结果。
定义:6.3.3:正当的公平[161]
如果预测器 对所有超集 是 K-公平的,那么它就是合理的公平。
6.4 分布迁移下的公平性
Singh 等人 [162] 研究了协变量漂移下的公平预测模型学习问题,即测试集协变量分布与训练集不同的情况。给出描述数据和预期变化的真实因果图,他们提出了一种基于特征选择的方法,该方法利用数据中的条件独立性来估计测试集的准确性和公平性。
Schrouff 等人 [163] 评估了 Singh 等人 [162] 和其他作品 [80,164] 所做假设的现实程度。他们将分布转移分为四类 : 人口转移、协变量转移、标签转移和复合转移,独立于考虑的因果图。他们的研究考察了皮肤病学和电子健康记录中的两个现实应用,并表明临床合理的变化同时直接影响数据分布的各个方面。因此,正如经验证明的那样,复合位移对这些应用中公平属性的可转移性有影响。
6.5 未解决的问题
6.5.1 平等替代品
文献中大多数公平的定义都强调平等,确保每个个人或群体获得相同的资源、关注或结果。相比之下,公平 [165,166] 很少受到关注,这意味着所有个人和群体都能获得他们赖以发展的资源。一个令人兴奋的未来方向是将这个定义操作化并研究它如何加强或违背现有的公平定义 [3]。
平等的另一种选择可能是考虑到模型的危害 : 里奇斯等人 [167] 提出一个伤害标准的定义,它应该能够准确地回答以下三个问题 : 问题1 : 代理人的行为造成伤害了吗?如果是,伤害有多大?问题2 : 在采取行动之前,我们预计会造成多大的伤害?问题3 : 我们如何确定能够平衡预期伤害和利益的行为?
然后,他们提出了一系列反事实的目标函数,以减轻伤害。
6.5.2 超出预期的公平性
在本章中,我们研究了围绕监督模型的预测输出而演变的预测公平性标准。然而,人们对评估超出预测的机器学习技术的公平性的兴趣越来越大,例如在溯源算法 (章节 5.2.2)。
Gupta 等人 [168] 提出实现追溯的能力不应仅限于那些能够获得昂贵资源的人。换句话说,重要的是追溯应该公平地分布在 (人口统计定义的) 群体之间。Von KüGelgen 等人 [169] 调查因果算法追索权行动的公平性,并得出结论 : 仍有许多工作要做。例如,他们质疑对一个小组中的所有个人进行社会干预是否合适。Huan 等人 [170] 处理努力的平等性 : 它们力求确定为实现相同的成果水平所作的努力在受保护组和未受保护组之间是否相同或不同。
6.5.3 局部识别
因果数量,特别是反事实,通常是无法识别的 (章节2.6)。这意味着我们不能从一个统计量来计算它们。虽然以前的因果公平性工作已经部分解决了这些问题 [153,171,172],但我们预计将通过现实模拟在敏感性分析方面做更重要的工作,以彻底测试这些方法并改变它们的方面,以了解违反假设如何影响公平性估计。
6.5.4 社会范畴的可操纵性
从社会科学的角度来看,人们对社会类别是否接受干预展开了激烈的辩论。Kohler-Hausmann [173] 批评说,反事实要求我们将种族缩小到仅仅是类别的标志,例如,一个种族的肤色或表型。Hu [174] 认为,关于种族等社会范畴的因果理论涉及“无法消除的实质性的道德和政治考虑,这是干涉主义不能很好地解释的特征”。Hu 和 Kohler-Hausmann [175] 都质疑在假设模型的模块化假设的同时,将性别等社会群体指定为 DAG 中的变量的有效性。更广泛地说,Kasirzadeh 和 Smart [176] 回顾了社会学和因果建模之间的交叉处的各种论文,得出结论,大多数情况下,社会类别不允许进行反事实操纵。
7.因果强化学习
强化学习 (RL) 是一个学习自主代理的框架,它与环境交互作用来学习最佳行为,通过试验和错误随着时间的推移而改进。它的中心目标是学习将情况映射到行动,同时最大化数字奖励信号 [177]。强化学习研究人员通常通过使用马尔可夫决策过程 (MDPs) 来形式化他们的问题设置,其中包括三个方面 : 感知、动作和目标。
在本节中,我们重点介绍旨在使强化问题从因果关系中受益的方法 (而不是反过来,例如,见 [178])。我们将这一系列方法称为因果强化学习 (CausalRL)。
我们在表 7.1 中总结了因果方法可能产生的好处。
问题 | 输出 | 相对于传统强化学习的好处 | 参引 | |
---|---|---|---|---|
因果赌博机 | 最优简单后悔保证 | 章节 7.2 | ||
基于模型的强化学习 | 去混杂 | 章节 7.3 | ||
多环境强化学习 | 可解释的任务嵌入、系统化概括 | 章节 7.4 | ||
政策外行动评估 | $\hat{v}{\pi}(s)=\mathbb{E}{x\sim d_0}\left[\sum_{t=0}^{T-1}\gamma^tr_t | x_0=x\right]$ | 去混杂 | 章节 7.5 |
模仿学习 | 去混杂 | 章节 7.6 | ||
积分分配 | 内在回报、数据效率 | 章节 7.7 | ||
反事实数据增强 | 数据效率 | 章节 7.8 |
表 7.1.因果强化学习的问题综述
标记
离散的时间步长
情况 t 最终的时间步长
时间 t 时所作出的动作
时间 t 时的状态
时间 t 时的遗憾值/损失值
时间 t 时的奖励值
返回
政策 (做出决策遵守的规则)
状态 s 时所做出的行为
在状态 s 时做出动作 a 的概率
真实的状态
观测到的状态
规则 下状态 s 的值 (预期收益)
在策略 下状态 s 下采取行动 a 的值
轨迹,例如
7.1 强化学习不是已经遵从 “因果关系” 了吗?
简短的回答是肯定的。因此,多年来,人们一直认为强化学习的某些地方与因果推理之间存在联系 [7,179,180,181,182,183,184]。然而,尽管概念上有相似之处,但作为研究领域,它们大多专注于不同的目标 : 一方面,强化学习社区专注于构建算法以最大化回报;另一方面,因果文献的重点一直是给定因果结构或基于给定因果结构的可识别性和推论 [184]。
我们将两个社区不同关注点的一个原因归因于各自处理的应用程序的类型。关于现代强化学习方法的绝大多数文献都是在能够生成大量数据的合成数据模拟器上进行评估的。例如,流行的 AlphaZero 算法假定可以访问棋盘游戏模拟,允许玩许多不同的游戏,并收集 Silver 等人的数据 [185]。它的主要创新之一是 TABULA RASA 算法,具有较少的手工知识和特定领域的数据扩充。有些人可能会争辩说,AlphaZero 证明了 Sutton 的痛苦教训 [186],该教训大致表明,在给定更多的计算和训练数据的情况下,具有低偏差和高方差的通用算法的性能优于偏差—方差谱的另一边的方法。
另一方面,在因果推理文献中,我们通常会获得来自未知策略和未知环境的有限大小的观测数据集,并且不能以在线方式与环境交互。问题惯例背后的原因是,许多因果推理方法起源于医学、计量经济学、在线广告和社会科学等领域,在这些领域,由于伦理或成本/时间消耗的原因,进行实验是棘手的。尽管如此,因果推理通常应用于决策将直接影响人类个体的环境中。
在因果推理中,标准的因果估计不是最大化期望中的回报函数,而是异质处理效应 (HTE) (章节11.2.1.1) : 它量化了将观察到的处理 t 改变为以协变量 x 为特征的某个子组的不同处理 的预期效果,表示为
根据假设,我们每个亚组只观察一对治疗和结果。在获得估计值 后,决策者可能会推理出哪些治疗方法对哪些亚群有效。由于其应用领域的高风险,异质处理效应研究界优先考虑强大的理论保证,如作为数据集大小或分析可信区间的函数的收敛速度。这导致了诸如能够利用机器学习方法的双稳健插件估计器的进步 [18,187]。
介于两者之间的是最近的子域离线强化学习 (ORL) [188]。在这里,目标是从包含未观察到的策略生成的轨迹的数据集中学习好的策略。离线是指算法必须利用来自未知环境的批量数据集,而不能访问在线探索,这与因果推理中的常见条件相匹配。尽管有这些相似之处,但这两种方法之间也存在差异,我们在表 7.2中列出了这些差异。尽管如此,我们希望看到这两个领域之间的建设性交叉结合。
方法 | 输入数据 | 目标 | 典型需求 |
---|---|---|---|
离线强化学习 | 多步轨迹 | 政策 | 测试环境中的收益最大化 |
异质处理效应 | 单步个体 | HTE | 解析收敛速度 |
表 7.2.离线强化学习和异质处理效应 (HTE) 估计之间的差异。这两种方法都有从未知政策产生的观测数据中提取决策信息的动机。
7.2 因果赌博机
赌博机问题是学习者和环境之间的顺序博弈 [189]。这个游戏是在 轮中进行的,其中 n 也被称为地平线。在每一轮 中,学习者首先从给定的集合 (也称为摇臂) 中选择一个动作,然后环境显示一个奖励 。
当 时,我们称这个问题为 k-摇臂赌博机。当 ,但 K 本身无关紧要时,我们干脆叫它多臂赌博机。
Lattimore 等人 [190] 形式化因果赌博机问题,这是一类随机序列决策问题,其中对固定因果模型的重复干预给予奖励。其动机是利用因果信息来预测干预的结果,而不是明确地执行干预。因此,可以使用非干预性观察来提高识别高奖励行为的比率。这推广了经典的强盗和情境随机强盗问题:在前者中,我们除了奖励之外没有额外的观察,而在后者中,我们在选择干预之前观察情境。因果强盗框架还允许我们使用在实施干预后发生的观察。
Lattimore 等人 [190] 描述以下情景以说明为什么使用这种额外观察会很有用 : 设想一位农民想要最大限度地提高作物产量。他知道作物产量只受温度、一种特定的土壤养分和水分水平的影响,但它们结合在一起的确切影响尚不清楚。每个季节,农民都有足够的时间和金钱来干预和控制这些变量中的至少一个 : 部署遮阳灯或热灯将设置温度的高低;养分可以通过选择的肥料来添加或移除,灌溉或防雨覆盖将保持土壤的湿润或干燥。在不干预的情况下,温度、土壤和水分会因天气条件而随季节自然变化。这些变化都是在每个季节结束时与最终作物产量一起观察的,可以让农民进行实验,以确定在有限的几个季节中单一的、最高产量的干预措施。
定义 7.2.1.因果赌博机问题 [190]
考虑一个因果模型是由一组随机变量 和在 上分解的联合分布 。对于每个状态 ,存在一个回报变量 ,它取值于 。此外,给定一组允许的动作 ,我们用 表示行动 的期望报酬,用 表示最优期望报酬。因果赌博机游戏一共进行 T 轮。在第 t 轮中,学习者根据先前的观察结果选择 进行干预。然后,它观察从 中提取的所有非干预变量 的采样值,包括奖励 。
通常,学习者的目标是最小化简单的后悔值 。在 T 个观察之后,学习器基于其先前的观察输出最优动作 的估计。这种后悔的目标有时被称为纯探索 [191] 或“最佳摇臂识别”问题 [192],当学习者有固定的实验预算,之后其政策将一直固定时,这是最合适的,就像在药物和政策测试中一样。
这种特殊情况被称为平行赌博机问题,其中每个摇臂被形式化为一个二元变量,该变量是奖励变量的独立原因。Lattimore 等人 [190] 提出并分析了一种在此设置下实现最佳后悔值的算法。对于更一般的因果图,他们提出了另一种更通用的算法,但为未来的工作留下了较低的遗憾界限。最后,通过使用并行赌博机问题在各种条件下的因果知识,实证验证了这两种算法都优于最优逐次消元算法 [193]。
同样,Lee 和 Bareinboim [194] 表明,当决策过程的基本因果模型不被考虑时,无论代理人在环境中进行了多少次干预,同时干预多个变量的标准策略可能导致次优政策。
Lu 等人 [195] 研究因果图结构未知的因果赌博机问题。他们针对一类因果图类型提出了一个算法,并证明了该算法比非因果图算法获得了更强的最坏情况下的后悔保证。形式上,他们证明了他们利用变量之间有意义的因果关系的目标对于一般的因果图是不能实现的,在最坏的情况下并没有比标准算法做得更好。
与因果赌博机问题类似,Silva [196] 研究了剂量反应学习的相关问题,即结果变量 Y (可以是奖励) 在控制变量 X (可以是摇臂) 的不同水平下如何变化。与因果赌博机的不同之处在于,他们的目标不是最大化 Y,而是学习关系 ,其中 是一组预定义的操作。他们的方法结合了不同的高斯过程先验,这些先验结合了观测数据和干预数据。他们还考虑了主动学习计划,根据 GPs 的不确定性来选择摇臂。
与因果赌博机 [190] 和剂量反应学习问题的动机相似,Aglietti 等人 [197] 将贝叶斯优化推广到具有因果信息的场景。贝叶斯优化是一种有效的启发式方法,用于优化评估成本高昂且无法解析描述的目标函数 [198],例如,使用特定的超参数集训练后神经网络的最终性能。Aglietti 等人 [197] 认为,利用因果图显著地提高了关于最优决策策略的推理能力,降低了优化成本并避免了次优解。通过整合真实的干预数据和用计算方法计算的干预效果,他们提出了一种算法来平衡两种权衡 : 勘探与开采、观察与干预。
Saengkyongam 等人 [199] 开发了一个因果框架来表征线下情境赌博机问题中的环境转移问题。虽然之前讨论的工作集中在利用因果知识来改善有限样本性能或单一环境中的遗憾约束,但他们的工作集中在建模分布转移和推广到新环境的能力。
Lu 等人 [200] 提出了因果MDPs,将因果赌博机背后的思想扩展到MDPs。动机是相似的 : 他们利用关于状态转移和奖励函数的先验因果知识来获得行为、奖励和状态变量之间的条件独立关系,并利用它们来开发有效的算法。
7.3 基于模型的强化学习
基于模型的强化学习 (MBRL) 除了学习策略,还学习环境动态 (状态转移和奖励函数) 模型,有效地结合了学习和规划方法 (后者对MDP动态具有可逆访问) [201]。生成动力学模型有时被称为世界模型 [202]。MBRL诱人的好处是,与无模型方法相比,它有望提高样本效率,从观测轨迹中提取有价值的信息,并能够从模型而不是实际环境中采样模拟经验。
混杂的局部模型 : 在以前的工作中,动力学模型往往是局部的,因为它们既不以观测数据为条件,也不生成完整的观测数据集。例如,流行的 MuZero 模型 [203] 是一局部模型,因为它预测了 的状态观测值 ,并更新了隐藏状态 ,但没有使用 时初始状态 以外的观测数据。换句话说,它直接产生 ,而不产生中间观测值。
Rezende 等人 [204] 证明了上述局部模型可能是不正确的 : 它们被它们没有建模的观测 混淆了,因此可能导致不正确的规划。观察结果 是混杂因素,因为策略使用它们来产生操作 ,而部分模型在其输入中缺少 。因此,动态模型对行为策略的变化不具有鲁棒性。
图 7.1.因果局部模型 (CPM) 机制 : 章节 7.3 中常见动力学模型背后因果图的比较
为了纠正混杂,作者建议使用后门调整 (章节 2.6) 在有条件地独立于代理状态的情况下做出动作。他们将以后门为条件的模型称为因果局部模型 (CPM),而将非因果局部模型称为非因果局部模型 (NCPM),见图 7.1。他们列出多个可能的后门选择,并讨论他们的权衡。在未来的工作中,他们建议重点关注动态模型对政策变化之外的其他类型的环境干预的鲁棒性。
因果世界模型 : 学习到的环境动态模型有时被称为世界模型,特别是当从一系列高维原始像素帧中观察动态时。基本上,它们仍然被用于估计状态转移函数 的观察条件 (类似于奖励函数)。
图 7.2. (a) 常规世界模型使用的 POMDPs [205],(b) 因果世界模型 (CWMs) 使用的因果POMDPs,(c) 干预 (操作) 后的 CWMs 的图形模型。
Li 等人 [205] 认为,在存在混杂因素的现实世界中,这种观察条件 (世界) 模型可能会有偏差。为了使这一问题变得明显,他们首先对比了传统模型使用的局部可观察到的MDPs (POMDPs) (图 7.2.a) 和他们的因果词模型 (CWM) 旨在学习的因果 POMDPs (图7.2.b)。
考虑到因果性 POMDPs,作者将他们的兴趣量定义为介入条件 。然后,他们认为在许多现实案例中,由于混杂因素 u 的存在,观察条件和干预条件是不同的。观察条件可以写成
介入性条件是,并用红色标注不同之处。
因此,CWMs 推断出介入式查询“假设我们在现实世界中观察到 ,如果 是 ,那么 是 的概率是多少?” 技术上,他们想要干涉如图 7.2.c所示的抽象状态变量,其中 是理想环境中的反事实值。然后,这种干预被呈现为条件观察分布 应用于 的可观察变化 (例如,物体位移或移除),其中 表示反事实观察的值。
任务无关的状态抽象 : Wang 等人 [206] 标准的非因果 MBRL 动态模型是密集的,因为它们根据当前状态下的动作和所有变量预测每个变量的下一步值。因此,它们对虚假关联很敏感。
图 7.3.用于任务无关状态抽象的因果动力学学习 (CDL) [206]
例如考虑图 7.3.a 中的示例,其中机器人面对两扇可以打开的门,并额外观察一个挂钟。子图 (a) 显示了一个密集模型。当门 B 在训练期间处于看不见的角度或时钟处于看不见的时间时,由于对其他变量的不必要依赖,这种密集模型对门 A 的预测可能不准确。这个问题激发了状态抽象技术 [207, 208],它通过省略一些状态变量将许多状态组合成一个抽象状态,如子图 (b) 所示。然而,[206] 认为泛化问题仍然存在,因为密集模型仍然用于剩余变量,在抽象状态中留下了不必要的依赖关系。
为此 Wang 等人 [206] 介绍了用于任务独立状态抽象的因果动力学学习 (CDL),如子图 (c) 所示。这种方法学习了一个因果模型,该模型明确地推断出哪些动作和状态变量会影响数据中的哪些变量。在上面的例子中,关于门 A 的预测不依赖于门 B 和时钟,因此比密集模型更能抵抗虚假关联。
更一般地来讲,如果存在某些没有其他变量依赖的状态变量 (例如时钟),则可以将其省略以进行规划。这激发了一种新颖的状态抽象形式:Wang 等人 [206] 建议将状态变量分为三组 : (i) 模型可以随其动作而改变的那些 (可控变量,例如门 A 和 B),(ii) 那些它无法改变但仍能对行动结果产生影响的 (与动作相关的变量,例如,阻挡门 A 运动的障碍物),以及 (iii) 可以完全省略的其余部分 (与动作无关的变量,例如,时钟)。
如图 7.3.b 所示,他们的方法通过因果图模型来表示过渡动力学,然后该模型被分割成与前面描述的三个分区相对应的子图。学习因果动力学模型,一个关键的挑战是确定两个状态变量之间是否存在因果边,即 是否成立。为此,他们利用了 Mastakouri 等人 [209] 的条件独立检验,该检验依赖于近似条件互信息。
为了彻底地揭示因果关系,我们必须收集广泛覆盖状态空间的轨迹。在探索阶段,他们使用奖励函数,即密集预测器和因果预测器到目前为止的预测差异 :
其中 是一个比例因子, 是奖赏的界限。这种奖励鼓励探索性代理进行转换,在密集预测器优于因果预测器的地方,这通常表明学习的因果图是不准确的。
最后为了解决下游任务,CDL同时学习一个过渡动力学模型 (包括奖励函数),并使用一个基于该模型的规划算法进行行动选择,就像大多数 MBRL 算法那样。在实验中,他们验证了这提高了学习动力学模型和下游任务策略的泛化和样本效率。
7.4 多任务强化学习
多任务强化学习指的是我们期望代理解决多个环境的设置。此外,一些研究假设在训练过程中从未遇到过环境,但在所有环境中都存在一些不变性 (例如,相同的动态,但不同的噪声源的观测函数),或者可能存在对新任务接触有限的适应阶段 (也称为元强化学习[210])。
因果好奇心 : Sontakke 等人 [211] 考虑了环境动态取决于隐藏参数 [212] 的设置,这些隐藏参数随环境或时间的变化而不同。例如,如果一个物体在一个环境中失去了与地面的接触,物体与地面之间的摩擦系数不再影响任何行动的结果。同样地,在地面上的物体上施加向上的力,其结果不受摩擦系数的影响。
然而,与之前学习潜在任务表征的方法 (如 [83,213]) 相比,他们的目标是恢复对因素的分离表征,即影响每个环境中行为结果的独立因果机制。其动机是解开了因果因素的嵌入,使改变的行为可以解释。
块 MDPs : Zhang 等人 [214] 考虑了在块 MDPs 中推广的学习状态抽象问题,在这些环境族中,观察可能会发生变化,但潜在状态、动态和奖励函数是相同的。通过利用 IRM 的思想 (章节 3.1.2.1),他们建议从观察空间中不同干预变量的随机观察中学习不变状态抽象 (例如,3d渲染物理模拟的背景颜色)。
块结构假设认为,每个观察 都可以唯一地确定其生成状态 。另外,作者对环境的因果结构做出了两个额外的因果假设 : 1) t 时刻的环境状态只能影响时刻 t+1 的状态值和时刻 t 的奖励值;2) 每个环境对应于对观察空间中单个变量的干预。例如,在他们的一个实验中,他们干预了环境的背景颜色,并将其设置为一个随机抽样的值。
模型不变状态抽象 : Tomar 等人 [215] 引入模型不变状态抽象,用于在单任务设置中系统地概括为不可见状态。这些抽象建立在两个概念上 : (1) 状态变量上的转移动力学中的因果稀疏性;(2) 学习表示中的因果不变性。(1) 意味着给定一组状态变量,每个变量仅依赖于前一个时间步长中这些变量的一小部分。(2) 规定在给定一组特征的情况下,所学习的表示仅包括对于跨不同干预预测感兴趣的目标变量始终必需的那些特征。因此,它可能包含真正的因果特征,并将很好地推广到数据分布中可能发生的变化。
架构网络 : Kansky 等人 [216] 提出了一种基于模型的强化学习产生式模型—图式网络。他们的方法依赖于模式,这是涉及一个或多个对象实体的局部因果关系。模型关于环境类别的知识用模式表示,在新的环境中,这些因果关系被遍历以指导操作选择。因此,一个场景的经验可以转移到其他类似的场景中,展示出可重复的结构和子结构。例如,他们证明了模式网络能够推广到具有扰动对象位置的 Atari Breakout [217] 游戏的变体,而无模型的基准无法做到这一点。
系统泛化 : 系统泛化的目的是从与几个环境的相互作用中学习环境动力学的普遍 (因果) 关系,这样我们就可以在单任务环境中处理看不见的状态,或者在多任务环境中近似地解决看不见的其他环境,而不需要进一步的交互。
Mutti 等人 [218] 定义以下系统性概括问题。首先,他们定义了一个宇宙 : 一个巨大的、潜在无限的环境集合 ,被建模为没有回报的离散 MDPs,
代理的目标是获得足够的知识,通过绘制有限数量的相互作用来近似解决宇宙 上可以指定的任何任务。
一个任务被定义为 MDP 和一个奖励函数 r 的任意配对。解决它指的是通过规划提供一个稍微次优的策略,即不进行额外的交互。
定义 7.4.1.系统的泛化 [218]
对于任意潜在的 MDP 和任意给定的奖励函数 ,系统泛化问题要求代理提供一个策略 ,使 到任意期望的次最优 。
由于集合 是无限的,作者假定存在共同的因果结构下的过渡动力学的宇宙。这一假设使问题变得可行,并允许他们产生一个可证明有效的算法,以多项式样本复杂度实现系统泛化。他们在一个合成的宇宙中验证了他们的算法的有效性,其中每个环境都是一个人,MDP 代表了一个人可以采取的一系列行动如何影响他们的体重和学业成绩。
7.5 政策外规则评估
策略评估的目的是衡量目标策略 的预期收益 ,其中 G 表示某些收益,例如,贴现收益 在时间步长 t 上,贴现率 ,奖励 R。此评估使用样本轨迹 由相同的策略 (按政策执行) 或另一个策略 (非政策执行) 生成。当使用后者时,我们将这种评估称为非政策政策评估 (OPPE),用于生成行为的策略称为行为策略。
原则上,OPPE是一个有吸引力的问题,在许多潜在的使用案例中,在线学习不可行。例如由于实验的成本或道德约束。从技术角度来看,它可以指导政策学习方法重用非政策经验,从而更有效地找到好的政策。然而,由于目标策略和行为策略产生的轨迹之间的分布不匹配,这通常是困难的。这种不匹配往往导致政策评估方法方差较大,收敛速度较慢 [177]。
图 7.4.将 POMDP 表示为 SCM [220] : 我们表示初始状态 ,状态 和历史 。生成操作 的机制是策略 。场景 总结了不可变的方面,其中一些是观察到的(灰色),一些不是(白色)。
有趣的是,Bannon 等人 [182] 强调,因果推理任务反事实推理 (CFI) 和 OPPE 是处理相似 (在某些条件相同) 问题的两种不同方法。
因果理论视角的 7.5.1: 政策外规则评估
CFI 中的观察、干预和查询变量分别直接对应于政策外事件、目标政策和预期回报。同样 Parbhoo 等人 [219] 认为,从广义和因果的角度制定 OPPE 的任务,在人群的个体单位 (如患者) 层面进行反事实或回顾性的非政策评估提供了可能性。
观察这种对应关系就会产生这样一个问题 : 这两个领域发展出来的技术是否互补?在下面,我们讨论给出肯定答案的方法。
反事实的政策评估 : Buesing 等人 [220] 提出了反事实导向的政策搜索 (CF-GPS),该方法在设置基于模型的 (政策外) 政策评估 (MB-PE) 时,使用反事实推断 (章节 2.3.2) 进行政策外评估 (CF-PE)。在此设置中,我们希望评估从模型 采样的合成数据上的策略,即,我们可以通过对情景 (环境中所有不受代理影响的方面,例如初始状态分布) 采样来估计预期回报 ,然后从函数 模拟轨迹 并计算其回报。
假设我们使用 SCM 而不是统计模型 ,Buesing 等人 [220] 表明 CF-PE 的偏差应该小于 MB-PE。首先,他们表明,在策略 下,可以将任意给定的部分可观察到的马尔可夫决策过程 (POMDP) 表示为轨迹 上的 SCM (关于POMDP的详细信息,请参阅 [177])。
因果理论视角的 7.5.2: POMDPs [220]
我们可以用SCM 在轨迹 上表示任何给定的部分可观察MDP (POMDP),方法如下。通过利用与变分推断 (如 VAEs) 中常用的重新参数化技巧相关的思想 [91],我们可以将所有条件分布,如状态转移 表示为具有独立噪声变量 的确定性函数,如 。 的 DAG 如图 7.4所示。
算法 2.反事实政策评估 [220]
// 反事实的推理 (CFI)
过程 CFI (数据 ,SCM ,干预 ,队列 )
从后验采样噪声变量
用 代替 p 中的噪声分布
执行干预
返回 从产生的模型 进行模拟
过程终止
// 反事实政策评估 (CF-PE)
过程 CF-PE (SCM ,政策 ,重放缓冲区 ,样本数量 N)
for 操作
来自重放缓冲区的样本
对回报的反事实评估
end for
返回 返回平均反事实返回
终止过程
基于这一表述,他们随后证明了反事实推理 (章节 2.3.2) 产生 的无偏估计,即干预 I 发生后 POMDP 在轨迹上的分布。相反,统计模型 中的任何偏差都从 传播到估计 。
算法 2总结了 CF-GPS 过程。在给定数据 的情况下,假设没有模型失配,即 ,我们可以将 的策略外评估任务视为具有数据 、干预 () 和查询变量 G (奖励) 的反事实查询。然后,与 MB-PE 的不同之处在于,我们不是从先前的 采样,而是从后面的 采样场景,其中我们从给定的非策略数据 推断事后的场景 U。然后,我们在这些特定场景下对代理进行评估。
从后方采样 通过考虑附加数据 (章节 2.3.2)。这种半非参数分布可以通过有效地筛选出与任何实际数据不对应的U域的部分来帮助去偏向模型。在证明了CF-PE在部分观察到的网格世界设置中的性能优于MB-PE之后,他们得出结论,当转移核和奖励核 是环境动态的准确模型时,可以预期 CF-PE 的性能优于 MB-PE,但噪声源 上的边缘分布很难建模。
遵循类似的方法,[221] 使用反事实生成的轨迹来强调目标和行为策略返回显著不同的事件。他们将此解释为在高风险设置 (如医疗保健) 中进行策略外 “调试” 的一个有用过程。[220] 使用反事实来近似得出介入分布的结果,与之相反,他们将反事实分布作为主要研究对象,并展示了他们的方法在脓毒症管理模拟中的实用性。
7.5.1 未被关注的混杂
在 OPPE 中,不使用当前策略进行评估的警告是,我们几乎不可避免地会遇到未观察到的混杂因素 (章节 2.5),这些混杂因素会对行为策略产生因果影响。Kallus 和 Zhou [222] 用下面的临床例子说明了这个问题 : 假设我们想比较不同药物的疗效。在正常的临床实践过程中,我们观察那些处方药物的结果 (奖励)。如果一种药物的处方者一开始就不健康,那么它的临床疗效可能会降低,因此无论如何也不会有那么成功的结果。相反,如果只给那些最能从中获益的病人用药,就会被错误地认为对所有人都有益。虽然这些问题可以通过控制更多可能影响治疗决定的因素来解决,但它们永远不可能完全消除。由于医疗保健数据库关于病史、患者严重程度等信息往往不完整,它们特别容易受到未观察到的混杂影响。
为此,Kallus 和 Zhou [222] 研究了混杂鲁棒政策改进 (包括 OPPE)的建立,以解释可能的未观察到的混杂 (UC)。他们开发了一种方法,在控制 UC 程度的一组倾向权重上,将候选人政策与基准政策的最坏情况估计后悔度最小化。通过理论分析,他们得到了推广保证,确保其政策在实施时是安全的。此外,它将对与 UC 程度一致的所有可能的人口遗憾的范围进行最佳统一控制。
Infinite-Horizon : Kallus 和 Zhou [223] 和 Bennett 等人 [224] 考虑扩展到无限水平设置的上述设置,例如,通常认为在物理系统的连续控制 [225] 或量化交易 [226] 中。同样,Namkoong 等人也是如此。[227] 研究 UC 仅在单个时间步发生时的情况,例如,专家根据未记录的信息做出初步决定,然后根据记录良好的观察结果遵循一组协议。
POMDPs : Tennenholtz 等人 [228] 考虑部分可观测 MDP (POMDP) 环境中的 OPPE,其中未观测变量可能具有混杂效应,促使他们提出解耦 POMDP 模型,该模型是一类观测变量和未观测变量被明显划分的 POMDP。Bennett 和 Kallus [229] 利用近端因果推理的框架揭示了 POMDP 设置,在该设置中,目标策略值的识别是可能的。此外,他们还构造了这些设置的半参数有效估计量。
结合离线和在线数据 : Gasse 等人 [230] 和 Wang 等人 [231] 重点利用线下数据热启动线上RL。Gasse等人。[230]建议学习一种基于潜伏期的转换模型,该模型同时解释干预和观察机制,然后推断标准的POMDP转换模型。Wang等人。[231]提出混淆的MDP,它自然地捕捉到线下和在线的设置以及由于混淆而导致的不匹配。然后,他们在插曲背景下用线性函数近似构造去连通算法。
图 7.5.因果 DAG 揭示了工具变量回归和 OPPE 之间的关系 [232]
与工具变量回归的关系 : 许多 OPPE 通过最小化均方 Bellman 误差来依赖状态作用值 (Q-) 函数的估计。Chen 等人 [232] 在图 7.5 中表明了工具变量回归、最小二乘时间差 (线性Q函数) 和非线性Q函数之间的因果关系是等价的。
7.6 模仿学习
模仿学习 (IL) 的目标是直接从人类专家提供的示例演示中学习控制政策 [233]。其背后的动机是消除在政策学习和/或设计特定于任务的奖励功能期间与环境进行广泛交互的需要。当今的相机和传感器快速收集和传输大量数据,具有强大计算能力的处理器在将感官输入映射到动作方面变得越来越快。因此,通过 IL 辅助的实时感知和反应模型的开发开辟了许多潜在的应用,如类人机器人、自动驾驶车辆或人机交互系统。
IL 面临的一个挑战是混杂。在下文中,我们考虑模仿者很难恢复专家表现的混乱设置。从核心上说,这些问题的根源与我们之前在 OPPE 小节 (章节 7.5) 中看到的类似,在 OPPE 小节中,人们的目标是基于不受代理人本身控制、而是外部实体控制的轨迹来学习政策。然而,由于 IL 的目标与 OPPE 不同,已开发出不同的处理方法。
**图 7.6.因果误判 : 数据越多,模仿学习成绩越差[234]。**刹车和汽车的刹车指示器之间存在虚假的联系。依赖刹车指示器的天真行为克隆模型 () 仅在刹车灯亮起时才会应用刹车。在左侧场景 A 中,该模型运行良好;但是,如果刹车指示器不可用 (右侧中的场景B),仿真器将失败。更好的车型 () 通过照顾行人来决定是否刹车。
总的来说,因果模仿学习 (CIL) 旨在解决令人困惑的问题。以下工作旨在消除观察到的专家轨迹的基础,以便模仿者策略达到类似的性能,或定义这样的必要条件和可测试的条件。
因果混淆 : de Haan 等人 [234] 研究因果混淆的设置 : 在这种情况下,对专家政策的输入得到充分观察,但专家政策的机制是潜在的,即不知道观察到的输入变量中的哪些是专家行动的实际原因,哪些不是 (即“滋扰变量”)。在这里,专家和模仿者观察相同的背景,但因果图对模仿者不可用。
作者指出在这种情况下,可能会出现因果误识别 (CM) 现象 : 如果导致专家行动的输入与模仿者的行动之间存在转换 (例如,当后者依赖于讨厌的变量时),那么获取更多数据可能会产生更差的性能。换句话说,当克隆的策略由于错误识别专家操作的真正原因而失败时,就会发生 CM,并且对他们进行更多观察的培训可能会加剧性能。
以图 7.6 为例 : 我们的目标是训练一个神经网络来驾驶汽车。场景 A 的模型输入是仪表板和挡风玻璃的图像。模型的输入 (具有相同的体系结构) 是相同的图像,但仪表板被屏蔽。虽然两种克隆策略都实现了低训练损失,但模型 B 在道路上测试时表现良好,而模型A则不是。仪表盘有一个指示灯,当刹车时立即亮起,而模型 A 错误地学习到只有在灯亮时才刹车。尽管刹车灯是刹车的效果,但模型A可以通过将其错误识别为原因来实现低训练误差。
为了解决这些问题,作者建议找出专家行为的真正因果模型。一个两阶段的管道可以自动化这一点 : 在阶段一,我们联合学习对应于各种因果图的策略;在阶段二,我们执行有针对性的干预,以有效地搜索假设集以寻找正确的因果模型。
图 7.7.通过一个奖品或青蛙游戏来说明自欺欺人的问题 [236] : 小组 (A) 说明了自欺欺人的问题 : 由于 A 和 O 被 所混淆,对自我产生的行为的限制导致了关于 O 的错误推断。专家小组 (B) 表明,将自我产生的行为视为因果干预可以绕过自我妄想,因为任何信息都不能从 A 向后流入 。小组 (C) 对应于完全可观察到的情况。当观察到 时,对自身产生的动作进行条件化或干预会导致相同的预测。
Tien 等人 [235] 在学习奖励函数的背景下,对采用成对偏好或排名形式的人类投入中的因果混淆进行系统研究。具体地说,他们在三个不同的机器人学习任务中证明了 : 即使在轨迹上有大量的成对偏好,也会发生对真实奖励函数的因果混淆。作者调查了影响因果混淆的不同因素:训练数据的类型、奖励模型的容量和偏好训练数据的生成机制。他们的结论之一是,尽管寻求教育性的人类示范会带来更好的样本效率,但所有偏好的数据收集方法都容易造成因果混淆。
自欺欺人 : Ortega 等人 [236] 证明流行的序列模型 “不理解其行为的原因和结果” 的普遍看法是对行为的条件作用的结果,而不是将其视为因果干预。原因是模型的更新是不同的,这取决于收集的数据是来自模型内部 (即来自操作) 还是来自模型外部(即来自其策略我们不知道的第三方),而将它们混杂会导致不正确的推断。
直观起见,作者给出了一个最小的例子,如图 7.7 所示。考虑一个奖品或青蛙问题,其中有两个盒子(1 和 2),一个盒子里有奖品,另一个盒子里有青蛙。目标是打开装有奖品的盒子。为简单起见,让我们假设这两种配置是等概率的。真实 DGP 在盒子构型 、选择盒子 A (1 或 2) 和观察内容 O ( 奖励)上具有联合分布 。
假设我们从一个专家生成的数据中学习一个概率模型,这个专家在被告知奖品的位置时打开了正确的盒子。关键是,与专家不同,我们不会观察 。通过比较任务参数上的两个后验信念 和 可以看出错觉的来源,也就是说,过去的行为分别被视为一种条件和一种干预 (区别被突出显示) :
在这里我们可以看到,干预导致消除证据 产生自产生的行为 。
未被注意的混淆 : Zhang 等人 [237] 处理了提供因果图的设置,然而,未观察到的混杂因素 (UC) 会影响专家演示的行动和结果。这意味着专家的输入观察可能与模仿者所能得到的不同。例如,自动驾驶汽车通常只依赖摄像头或激光雷达,完全忽略了听觉方面。然而,大多数人类驾驶员能够利用这些数据,特别是在危险的情况下 (汽车喇叭,刺耳的轮胎声) [238]。
为了在单阶段设置中形式化和研究这个问题,他们引入了部分可观察的 SCM,这是一种特殊类型的 SCM,明确地允许人们对一些内生变量的不可观察性质进行建模。然后,他们证明了模仿问题与可识别性正交,并引入了一个数据相关的图形化标准,以确定模仿专家的表现是否可行。基于这个标准,他们提供了一种算法来检查数据中是否存在工具,从而满足图形可模仿性标准。最后,在满足准则的情况下,提出了一种估计模仿策略的方法。
顺序数据 : Kumor 等人 [238] 扩展了 Zhang 等人的观点。[237] 的结果是顺序设置,模仿者必须在每集做出多个决定。为此,他们引入了一个通用的后门标准,允许单一模型学习跨越一系列状态和行动的模仿政策。他们证明了他们的标准是模仿性所必需的。
多个环境 : Bica 等人 [239] 考虑具有多个环境的模仿学习环境。他们的目标是从一类共享观察和过渡动态的特定结构的环境中学习一种与所有可能环境中的专家行为相匹配的策略,类似于我们在章节 7.4 中讨论的那样。图 7.8 直观地显示了它们设置的因果图。
为了激励学习到的模仿策略停留在专家观察的分布范围内,作者建议在给定当前观察的情况下,最小化通过跟随 获得的下一次观察的能量。通过这种方式,他们为模仿策略分配了低损失,以保持在专家占用测量的高密度区域内,并为偏离它分配高损失。
设置 | 状态 | 专家行为 | 观测到行为 | 混杂 |
---|---|---|---|---|
四轴飞行器飞行 [242] | 位置 | 预期飞行方向 | 实际飞行方向 | 持久的风 |
产品定价 [243] | 需求 | 利润率 | 价格 | 原材料成本 |
ICU治疗 [244] | 症状 | 治疗意图 | 接受治疗的患者 | 伴随疾病 |
共享自治 [240] | 用户状态 | 目的行动 | 执行行动 | 协助 |
图 7.3.因果模仿学习中的时间相关噪声示例 [240] : 在这些设置中,状态和动作之间的虚假关联 (章节 2.5) 可能导致对专家策略的估计不一致。
时间相关噪声 : Swamy 等人 [240] 假设在许多模仿学习环境中,专家的记录可能被时间上相关的未观察到的混杂因素破坏,即时间上相关的噪声不是跨时间步长独立分布的。表 7.3说明了可能出现此类噪声的设置。例如,第一行考虑的是一名四轴飞行器飞行员,他可能一直在持续的风中飞行。模仿学习者很可能会复制这些偏差,并且在不同天气条件的测试时间环境中表现不佳。此设置与章节 7.6 相关,但对未观察到的混杂因素 (可加性噪声) 做出了更强的假设。
为此,Swamy 等人 [240] 利用工具变量回归 (IVR) 去混淆数据 (章节 11.2.1.2)。简而言之,IVR 利用工具变量 (一种独立于混杂因素的随机变化源) 通过对工具变量进行调节来消除对模型的输入的混杂。
他们的方法背后的关键思想是将过去的状态作为工具来打破由未观察到的混杂因素引起的状态和行为之间的虚假关联。这背后的动机是历史转变不受未来混杂的影响 [241]。
他们通过 SCM 和目标估计将 TCN 设置形式化为基于 IVR 的专家策略 的干预效果。为了估计该估计值,他们提出了两种直接受生成建模和博弈论 IVR 方法启发的方法。前者利用对模拟器的访问,而后者可以完全离线运行。此外,他们推导出性能界限,假设 TCN 的相同分布在测试时会影响学习器。
7.7 积分分配
RL 中的一个关键问题是信用分配 (CA),即理解行为和奖励之间的因果关系,并确定结果在多大程度上是由外部不可控因素造成的 [245,246]。这意味着,一种功能允许我们在一个代理的表现中分离 “技能” 和 “运气” 的相对方面。由于部分可观察性、规模、长时间范围或不断增加的动作数量,一个智能体所采取的每一个动作可能对结果的影响都是消失的,这使得从经典的强化学习算法中学习变得越来越困难。
在接下来的内容中,我们将着眼于通过衡量行为对所观察到的奖励的因果影响而分配学分的方法 (章节 2.7)。
7.7.0.1 因果影响检测
Seitzer 等人 [247] 假设智能体只能在某些情况下影响其环境。例如,如果把一个机械臂放在桌子上感兴趣的物体前面,只有当机器人和物体接触时,该物体才能移动。有些情况有直接的因果效应,而有些则没有。
作者认为,将状态的因果影响量化的因果行为影响 (CAI),可以帮助指导学习算法寻找具有更高 (预测) 影响的状态,甚至使它能够在缺乏任务特定奖励的情况下发现有用的行为。为了推导 CAI,他们引入了一个因果模型,该模型允许他们通过条件互信息 (CMI) 来量化代理是否在给定的状态下处于控制状态,而 CMI 在都灵是通过神经网络模型估计的。
基于他们的实验结果得出结论,CAI 通过 (i) 通过探索效益更好的状态探索,(ii) 因果行动探索,以及 (iii) 在训练中优先考虑具有因果影响的经验,从而提高了样本效率和性能。
7.7.0.2 反事实积分分配
Mesnard 等人 [246] 提出了反事实信用分配 (CCA),这是一个使用反事实概念来处理信用分配问题的框架。他们提议通过对未来事件嵌入 (学习从轨迹中提取相关信息) 的价值函数进行条件反射,隐式地执行反事实的政策评估 (章节 7.5)。然后,通过建立对未来有条件的批评,估计的反事实回报可以用来形成对政策梯度的无偏和较低的方差估计。
虽然传统的状态-行动函数估计所有行动的回报,但它们是通过对所有可能的未来进行平均来实现的,而 CCA 估计不同行动的回报,同时保持许多外部因素在回报和反事实估计之间保持不变。这使得 CCA 可能更细粒度,并可能提高具有复杂信用分配结构的环境中的数据效率。
FC-PG 算法的关键要素是学习后见之明的统计 ,它嵌入了一个轨迹同时不排除任何可能对 产生 的操作。例如, 不满足这个条件,因为它排除了产生 的任何操作 。作者讨论了学习 的几个选项,主要集中在使用后见网络 ,它直接从观察到的状态-行动-奖励三元组中提取 ,即 。
通过建立与反事实引导的策略搜索 [220] (章节 7.5) 的连接,作者解释说,可以将 CCA 估计器理解为通过丢弃来自整个轨迹 的需要模型的信息来避免对环境建模,而留下仍然有用的信息 ,利用这些信息可以以无模型的方式计算反事实。
7.7.0.3 多智能体的强化学习
多智能体系统由自主的分布式智能体组成,它们在共享环境中相互作用 [248,249]。每个代理都努力完成指定的目标,而代理之间的相互作用会根据任务的不同而不同,因此代理之间会合作或竞争地行动,以击败竞争对手
在这里,积分分配问题出现在合作环境中,当代理的行动集合只产生一个全局的、共享的奖励时,使得每个代理难以推断自己对团队成功的贡献 [250,251]。
图 7.10.激发反事实数据增强 (CoDA) 的池示例 [253] : 了解局部因果结构允许我们混合和匹配因子子过程,以基于三个事实样本形成反事实样本。我们拒绝第一个提议,因为它的一个事实来源 (蓝球) 没有本地化。由于交换后的提案未在本地考虑,第三个提案被拒绝。接受的提案二可以用作强化学习代理的额外训练数据。
除了对所有代理的共享奖励外,[252] 还建议对影响其他代理的行为的代理进行奖励。除了直接的奖励之外,代理还会获得这种内在的奖励,它反映了一个代理对另一个代理的影响。他们将其称为 “因果影响”,类似于 Seitzer 等人在章节 7.7.0.1 中讨论的单主体设置 [247]。使用反事实推理,一个智能体模拟可能的行动,并确定它们在每一个时间步对另一个智能体的行为可能产生的影响。对其他代理的行为有显著影响的行为被认为是极具影响力的行为并得到奖励。一般来说,他们发现这种额外的奖励帮助代理学习可解释的通信协议,并获得比基线更高的集体奖励,基线有时无法完全学习。
7.8 反事实数据增强
以下技术将反事实数据增强 (CFDA) (章节 4) 的思想应用到 RL 轨迹中。
本地因果模型 [253] : 考虑一场台球比赛,如图 7.10 所示 : 每个球都可以看作是它自己的物理过程。在开场前,由于它们的初始位置,每个球都有非零的机会与其他球碰撞。因此,为了预测首破的预期结果,我们需要一个考虑所有球的过渡动力学模型。然而,除了初始时间步,大多数球之间的交互保持稀疏。换句话说,在大多数时间步中,只涉及所有球的一小部分。
Pitis 等人 [253] 利用了这样一个事实,即在子流程之间的交互 (本地) 是因果独立的 : 他们提出了一种反事实的数据增强技术,该技术与任何代理架构兼容,且不需要向前动态模型。通过推断是否存在局部相互作用,当两个轨迹具有相同的局部分解时,它们交换观测轨迹对的分解子空间。
图 7.11. 现有的 RL 数据增强技术可以被解释为 CoDA 的特定实例 [253] : 橙色节点被重新标记,为清楚起见省略了外部噪声变量。(a) 目标重新标记 [254],包括 HER [255],用反事实目标增强过渡。(b) 视觉特征增强 [256,257] 改变视觉特征 (例如照明、相机位置等)。(c) Dyna [258],包括 MBPO [259],用新的动作增加观察到的状态,并使用学习的动力学模型重新采样下一个状态。(d) 给定两个共享局部因果结构的过渡,Coda交换连接的分量以形成新的过渡。
CoDA 背后的关键思想是利用独立机制的原则 (定义 2.3.4)。假设我们可以将状态和动作空间分解为多个子空间,例如,通过子图 表示,其中 为全局跃迁动力学的因果 DAG。那么,当 和 在 中断开时,由 、 所代表的因果机制是独立的。换句话说,当由 控制的全局动力学可以被分成两个 (或多个) 连接的组成部分时,我们可以将每个子图推理为一个独立的因果机制。如图 7.11 所示,现有的 RL 数据增强技术依赖于类似的全局独立关系。
个性化的政策 [260] : Lu 等人 [260] 提出了一种 CFDA 方法,通过个性化政策来处理环境异质性,例如,在医疗保健环境中,患者对相同的治疗可能表现出不同的反应。类似于 CF-GPS (章节 7.5),他们将转换动态过程形式化为一个 SCM。然后,类似于章节 7.3中的方法,他们了解到 SCM 包括其结构函数和外生噪声变量 (章节 2.3),他们使用双向条件GAN [261]。
作者提出了两种算法,不同的是我们是否假设数据中存在潜在的环境异质性。如果是这样,他们在因果系统中明确地包括一个环境变量,以考虑到不同观察的可变性。
7.9 未解决的问题
统一的形式 : 由于因果关系和强化学习之间的相似之处,以及两者的交集缺乏成熟度,我们担心论文之间的冗余,即重复发明轮子 [262] 的类比。文献中越来越多的形式主义可能会导致从业者的决策瘫痪,并且,正如我们在前一段中所讨论的,通过增加比较方法的障碍来减慢进展。我们建议未来的工作更严格地比较不同形式主义的适用性,并可能将它们统一起来。
例如,考虑一组具有共享动力学的 MDP (例如,所有物理上可行的摆的集合),其中每个 MDP 由额外的动力学参数指定 (例如,摆的长度和质量,参见 [83] 获得更具体的内容)。这些参数通常是观察不到的。我们注意到为这种类型的设置提出了无数 MDP 形式 : 带有未观察到的混杂因素的 MDP [263],混杂的 MDPs [264],因果 POMDPs 1 [205],因果POMDPs 2 [211] (它们不是同一个公式),因果MDPs [200],和离散 MDPs (见章节 7.4,一个universe) [218]。即使在非因果的 RL 文献中,我们也发现了具有相似动机的多种形式主义,例如语境性 MDPs [265]、隐藏参数 MDPs [212] 和贝叶斯适应性 MDPs [266]。我们知道,这些形式主义在技术上是不相同的,但假设统一是可能的,并且可以促进进步。
去混杂的离线 RL : 当我们从一个离线数据集中学习策略时,既不访问观察到的策略也不访问环境,数据集中极有可能包含混杂偏差。正如我们在本节中所看到的,使用因果关系进行 RL 的主要动机是因此去寻找观察到的数据,即转换它,以便消除混淆性偏差。我们认为,在纯粹的离线 RL 设置中,取消资助的观测数据还没有得到充分的探索,只有很少的工作解决了这一设置 [223]。
反事实决策 : Bareinboim [183] 揭示了反事实的推断在 RL 文献中被忽视,可能是由于学习正确的 SCM 很困难。然而,智能体中的反事实推理可能会为仅基于观察分布的智能体推理带来额外的好处,例如在政策搜索中减少偏差 (章节7.5),在共享或合作的多智能体系统中将信任分配给单个智能体 [251],或在人在环系统中考虑人类的预期行动 [267]。
8.具体形态的应用
在前面的章节中,我们熟悉了应用两种因果原语 (干预和反事实) 的不同方法论,贯穿 5 个不同的问题领域;从如何学习数据中的不变性到处理顺序决策设置中的混杂。
在本章中,我们回顾了为特定数据形式设计的方法,即 : 图像 (计算机视觉)、文本 (自然语言处理) 和图 (图表示学习) 数据。其中一些工作是前几章介绍的核心方法的现成应用;有些不是,但过于特定于模式而不能在前面的章节中介绍。
我们观察到这三个领域有一些共同的主题,因此我们用它们来划分每个模态中的方法。为方便起见,我们在此简要概括 :
- 因果监督学习 (章节 3) : 方法通过提取只包含预测变量 Y 的因果父母的 (不变的) 特征映射来处理虚假关联。
- 反事实的数据增强 (章节 4) : 方法对一部分因果因素进行反事实修改,使训练数据不受影响。
- 反事实解释 (章节 5.2.1) : 通过计算个体的 (最小) 变化特征实例化来解释模型预测的方法,这将导致底层模型将其归类到不同的类中。
- 因果关系的公平性 (章节 6) : 确保模型预测在涉及受保护属性(例如,性别、种族等)的因果关系方面是公平的方法。
- 杂项 : 其他不属于上述类别的。
8.1 计算机视觉
8.1.1 因果监督学习
Few-Shot 学习 : few-shot 学习 (FSL) 方法假设在生产环境中部署的模型可能会遇到只有少数带标签的样本可用的新任务;然而,这些缺乏数据的任务可能与其他数据丰富的任务在结构上有一些相似之处 [269,270]。Murphy [270] 给出了以下例子 : 考虑濒危鸟类物种的分类任务,根据定义,这些物种是稀有的。然而,鸟类在不同物种间有许多结构上的相似之处 (翅膀、羽毛等)。因此,首先在非濒危物种的大数据集上训练一个模型,然后将知识转移到濒危鸟类的小数据集上,可能会比只在小数据集上训练效果更好。
图 8.1.Few-Shot 学习中的混杂 (章节 2.5) [268] : 通过常规的预训练或元学习获得的预训练权重可以被解释为可能引入转移缺陷的混杂因素 (章节8.1.1)。
处理这种情况的一个常用策略是迁移学习。一个简单的迁移学习策略是微调,它包括两个阶段 : 首先,我们执行训练前阶段,在这个阶段中,我们在一个大型源数据集上训练一个模型。其次,我们冻结一些预先训练的参数,并继续训练其余的 few-shot 目标 (训练) 感兴趣的数据集。
另一种更高级的迁移学习策略是元学习,其目标是学习一个经过训练的元模型,该模型能够快速适应不同的 few-shot 数据集。我们将不详细讨论这些方法是如何工作的,但将有兴趣的读者引导到 [269]。
Yue 等人 [268] 从因果关系的角度研究了两种 FSL 策略,发现预先训练的知识是限制其表现的混杂因素。通过对这种混杂因素进行调整,作者开发了三种算法,在几种 FSL 基准上实现了最新的结果。
为了说明问题,回想一下图 3.1 中的示例问题,我们感兴趣的是基于奶牛特有的特征而不是背景特征 (例如山脉) 来预测奶牛的标签。使用预先训练过的知识 (例如大型数据集 或带有参数 的第三方预训练模型), 可能无法很好地泛化,因为它诱发了虚假的关联 : 预训练的权重生成的特征 () 和语义 () 可能过度依赖于山的具体情况。 \
作者认为,要使 FSL 更具鲁棒性,我们需要探寻 X 和 Y 之间的真正因果关系,即因果干预 。为了说明原因,他们将 FSL 与 many-shot 学习 (MSL) 进行对比,MSL 指的是使用更大的目标数据集进行微调。自然,我们希望 MSL 工作得更好,因为我们使用了更多的数据;然而,作者认为,这并不能回答为什么当样本数量接近无穷大时,MSL 会收敛于真正的因果效应。因果视角的 8.1.1 更详细地解释了这一点。
图 8.2.MSL vs. FSL vs. IFSL
因果理论视角的 8.1.1: many-shot 学习和 few-shot 学习的对比
Yue 等 [268] 假设 MSL 中的 ,而 FSL 中的 。为了说明为什么这是成立的,让我们引入样本ID I 并假设 。自然地,我们可以假设我们可以用 来估计 ,所以我们可以把 I 合并到 的估计中,写作
现在我们比较 MSL 和 FSL 的因果图,如图 8.2.a 和 8.2.b 所示。对于MSL,我们发现 ,而不是 ,因为从许多样本中追踪 X 的 ID 就像“大海捞针”。这使得 I 成为一个工具变量 (章节 11.2.1.2),有效地意味着 I 和 D 是独立的, (详情见 [268] 附录)。但 在 FSL 中存在,因为它更容易猜出对应关系,在 1-shot 的极端情况下,对 具有琐细的 1:1 映射。
接下来,作者提出了介入性 FSL,其思想是使用后门调整来估计 ,而不需要 many-shot 样本,如图 8.2.c 所示。这种调整需要对混杂变量进行观察和分层,当 D 是第三方交付的预训练网络时,混杂变量是非平凡的。作者对此提出了三种实现方法 : (i)特征调整,(ii) 类调整,(iii) 组合调整。它们表明,这些实现提高了所有查询硬度的基线。
图 8.3.无干扰识别因果特征学习 [271]
未观察到的混杂因素 : 以往的方法大多采用后门准则来减轻混杂因素的影响。然而,后门准则要求显式识别混杂因素。由于在现实世界的许多场景中,混杂物可能是多种多样的,难以识别,Li 等人 [271] 利用前门准则探索了一种无混杂物识别方法。图 8.3 说明了使用后门和前门准则的区别。
图 8.4.因果注意力模块的因果DAG [264], 由图像 、标签 Y、中介 M 和不稳定上下文混淆器 S 组成,目的是学习因果关联 ,同时沿 的路径处理关联。
如果我们可以获得一个中间变量 Z,例如 ,那么前门准则不需要识别混杂因素。作者提出了一种依赖元梯度的策略来模拟 区的干预。他们还与基于梯度的元学习方法建立了联系,并阐明了为什么像 MAML [272] 这样的方法可以从因果的角度工作。总的来说,他们的方法提高了视觉模型的跨域性能。
注意力模型 : 为了使基于视觉的注意力模型不容易捕获虚假的相关性,并在 OOD 设置中更具鲁棒性,Wang 等人 [264] 提出了一个因果注意力模块,该模块以无监督的方式注释混杂因素。图 8.4 显示了它们的因果图 : 是从图像 到标签 Y 的期望因果效应。进一步,我们假设一个不变的中介变量 M,其中包含有区别的对象部分,如鸟的翅膀。S 是风格混淆因素,例如,图像的非区分背景 (鸟飞时是天空,翅膀垂下时是地面)。如图 8.4.b 所示,目标干预是对背景 S 和中介 M 进行分离。然而,由于在处理可视化数据集时通常不容易获得完美的干预,作者建议执行不适当的干预,如图 8.4.c 所示。
为了识别内容变量和风格变量,他们分别以对抗性的方式训练了 、 两个独立的注意机制。类似于训练生成对抗网络 [273],训练管道的每一次迭代都对应于解决一个由最小化和最大化步骤组成的双层优化问题。最小化步骤优化不变特征提取器 ,而最大化步骤更新样式混合因子提取器 。
图 8.5.因果运动预测 [274]
运动预测 : Liu 等人 [274] 研究了运动预测,即从视频中预测跟踪目标的位置的任务。如图 8.5.a 所示,他们的因果模型将每个视频建模为域 、样式 、内容 以及跨环境不变的域不变变量 ,而 和 则依赖于域 。例如, 可以捕获物理定律。
图 8.5.b 说明了它们的模型结构 : 不变编码器 建立域不变关系,风格编码器 建立域特定关系,风格调制器 提取有用的域特定信息而忽略虚假信息。采用了一种比较损失 来鼓励学习领域特定信息的有用表示。
图 8.6.弱监督语义分割 [275] : 因果图的图像 、标签 Y、样式特征 ,伪掩模 。
弱监督语义分割 : Zhang 等人 [275] 提出了一种改进弱监督语义分割 (WSSS) 的框架。具体来说,目标是通过使用图像级标签 Y 来获得更好的像素级伪掩码 。作者发现样式特征 会导致不准确的伪掩码。因此,他们提出了一个结构因果模型 (图8.6) 来分析图像、风格和类别标签之间的因果关系。提出了一种名为上下文调整的新方法,通过使用未观察到的 的近似来模拟干预 来消除图像级分类中的混杂偏差。
图 8.7.去混杂的视觉理解 [276] : : 未观察到的混杂因素, : 像素级图像, : 语言查询, : 查询的位置。
视觉理解 : 视觉理解是将自由形式的自然语言查询 (短语或句子) 映射到其相应的图像区域的任务,例如,“驾驶汽车的人旁边的狗” [276]。通过调查现有理解方法的失败案例,Huang 等人 [276] 揭示了某些主题与其在共同基础数据集中的位置之间存在虚假关联。例如,包括 “羊” 在内的查询对应的图片往往位于中心区域;“角落” 的尺寸往往较小; “站立” 倾向于将站立的人展示在中心,因为他们通常是摄影师的焦点;但是,如果遇到大多数人站在一旁的图像,这种虚假的联想就不再成立。
图 8.7 显示了 Huang 等人 [276] 提出的因果图。感兴趣的因果估计是介入分布 ,其中 表示图像,R 表示语言查询, 表示对象位置。这种不平等是由于未观察到的混杂物 造成的。为了处理这个未观察到的混杂物,作者利用了Wang 和 Blei [277] 先前提出的去混杂算法。该算法允许学习替代混杂器 的生成模型,然后可以使用它执行后门调整。为了完整起见,我们注意到该算法已经引起了一些争议,Ogburn 等人 [278]、D'Amour [279] 对其合法性提出了质疑。
图 8.8.反事实视觉解释 (CVE) [283] : 考虑两只看起来相似但不同的鸟的两张图像 : 、 分别是带有标签 、 的查询图像和错误选择图像。CVE 识别了两幅图像中的区域,如果 中的高亮区域与 中的高亮区域相似,则生成的图像 将更可靠地归类为 。
视频瞬间检索 : 是识别与文本查询相对应的视频片段的开始和结束的任务。Otani 等人 [280] 认为 VMR 模型经常利用数据集中的虚假时间位置偏差,而不是学习跨模态匹配。换句话说,时刻的时间位置是一个隐藏的混淆器,它虚假地关联了用户查询和时刻位置,使模型忽略了实际的视频内容。
与此同时,Yang 等人 [282] 构建了一个 SCM,由四个变量组成 : (查询)、 (视频时刻)、Y (预测)和 (时刻定位)。然后,他们用 替换非因果查询 。因此,查询被迫与基于干预的目标的所有可能位置进行公平的交互。
8.1.2 反事实解释
Goyal 等人 [283] 提出了章节 5.2.1 的反事实解释,以仔细检查图像分类模型的预测。给定一个带有类标签 y 的查询图像 ,反事实视觉解释的目标是确定如何更改图像,以便图像分类模型预测不同的类 。
他们的方法如下 : 首先,必须选择模型预测为经典的干扰图像 。然后,他们识别图像 和 中的空间区域,用 中的区域替换 中的空间区域将导致预测类 。除了为模型预测提供解释,作者发现反事实的视觉解释也可以帮助人类用户更好地区分不同的类别。
Hendricks 等人 [284] 建议通过检查输入中缺失的证据来生成反事实解释,但如果在图像中存在,则可能有助于做出不同的分类决策。动机是生成事后自然语言解释,如果出现在图像中,哪些属性可能会改变分类决策,例如,“这不是一只红色唐纳雀,因为它没有黑色的翅膀。”
8.1.3 因果生成模型
8.1.3.1 反事实的数据增强
Zero-Shot 学习 : Yue 等人 [285] 建议,通过一种生成模型,将类属性 Y 和 的样本特定属性 分离开来,为分类器的非分布概化生成反事实样本。然后,他们从一个反事实分布中生成反事实样本,其中 被干预,同时保持 Y 不变,。
为了确保 存在于已见或未见样本的真实分布中,他们通过应用一致性规则 [286] 的反事实可信度 : 如果 x 与 不相似,则 x 的基准真相属性不可能是 y。该标准通过经过训练的二进制分类器实现,该分类器可以区分已见和未见数据 。
跨域姿态估计器 : Zhang 等人 [287] 提出使用因果表示学习来改进跨域 3D 姿态估计任务。具体来说,他们训练了一个反事实特征生成器,它将域和内容作为输入。他们改变领域来模拟干预,并引导模型产生反事实的特征。这有助于模型学习跨领域的可转移特性。
8.1.3.2 反事实的轨迹生成
我们的目标是在一个新的初始条件 下,给出一个观察到的初始条件 和一个 T 帧序列 ,生成一个反事实序列 。
Li 等人 [288] 提出了视觉因果发现网络 (V-CDN),它类似于处理所有三个层次的因果表征学习 (定义 2.4.1)。它由三个模块组成 : (i) 使用无监督关键点检测算法 [289] 从视频中提取有用特征的感知网络;(ii) 使用GNN学习因果图的结构推理模块,以及 (iii) 以因果图和当前状态特征为条件的动态预测模型,对未来进行预测。该模型解决了一个纯粹的关联对象学习者无法完成的任务 : 建模对象之间的交互,而不仅仅是碰撞。
继 Li 等人 [288] 之后,Janny 等人 [290] 补充了基于附加信息的无监督关键点发现的学习潜在表征。具体来说,这解决了两个问题 : 首先,多个移动对象之间的形状、几何形状和关系必须通过点之间的相对位置进行编码,因为每个对象只能通过其 2D 位置进行区分。其次,二维关键点空间可能不是物理系统动力学建模的最佳表示,因为附加的成像过程可能会混淆数据。
图 8.9.视觉因果发现网络 [288] : 它提取无监督关键点作为状态表示,推导出因果图,然后学习基于两者的动态模块。
作者将他们提出的架构部署在来自一个堆叠块的 3D 模拟器的视频数据上。编码器以二维关键点和编码形状和外观的信息系数的形式学习块的表示。从这种表示中提取潜在混杂,动态模型从观察的表示中预测轨迹。解码器随后将弹道预测映射到视频数据。提出了一个基准来测试反事实轨迹预测,这将在章节 9.2 中讨论。
8.2 自然语言处理
尽管存在这些挑战,文本已被证明在因果推理应用中是有用的,因为文本在因果推理中可以作为混淆器 [291]、结果 [292] 和处理 [293,294]。因果推理已被应用于各种自然语言处理 (NLP) 任务中,如自然语言解释 [295,296]、公平性 [297]、文本分类 [298] 和机器翻译 [299]。接下来我们介绍一些有代表性的作品。
8.2.1 因果监督学习
8.2.1.1 视觉问题回答
想象一下在一家社交网络公司工作,你的团队的任务是建立检测仇恨言论的模型。您的同事已经开发了只针对文本数据的伟大模型;然而,剩下的一个挑战是在模因中检测它,模型需要理解文字和图片的组合含义。
这个问题属于视觉问题回答 (VQA) 的范畴,也就是说,用自然语言回答以前没有见过的关于以前没有见过的图像的问题的任务 (例如 “这张照片包括仇恨言论吗?”)。VQA 的经典方法是从一个由图像 v、问题 q 和答案 a 组成的训练集中学习模型,这些训练集由 组成。该模型推断出问题 的嵌入,图像 的嵌入,以及两个 的融合函数到所谓的节点空间中。
图 8.10.多模式的 “平均” 模因 [300]。左:平均模因,中:良性图像混杂因素,右:良性文本混杂因素。
这种模型的一个挑战是处理图像和文本模式之间的虚假关联。例如,图 8.10 (左) 说明了常见的平均模因;带有 “喜欢你今天闻起来的样子” 等文字的模因可能会虚假地与令人不快的气味图像相关联。如 Kiela [200] 等人所示,这些虚假的关联使模型更难真正捕捉多模态理解。作者开发了一个带有良性混杂因素的基准,这些混杂因素是最小的替换图像/文本,可以将给定的多模态模因的标签从可恨变为非可恨。良性图像和文本混杂分别显示在图 8.10 的中间和右侧。他们发现,在这个基准上进行评估时,最先进的方法与人类相比表现不佳。
在下文中,我们研究了两种因果 VQA 方法,它们建议打破文本和图像之间的虚假关联。
反事实视觉和语言学习 : Abbasnejad 等人 [301] 建议在观察和生成的反事实样本上训练VQA 模型,以提高泛化能力。这个过程背后的动机是迫使模型使用两种输入模态,而不是只依赖于一种模态的相关性。典型的 VQA 模型分别对问题和视觉输入 q 和 v 具有特征提取器 和 。相比之下,Abbasnejad 等人 [301] 构建了一种 SCM,其中特征提取器依赖于外生变量 : 被代替为 , 被替代为 ,其中 和 分别是图像 (视觉模块) 和问题 (语言模块) 的外生变量。在训练过程中,它们对 q 或 v 进行干预,分别用 和 表示,并得到相应的嵌入值 和 。他们发现他们的方法对单模态视觉和语言任务以及多模态视觉和语言任务都有效。
反事实 VQA : Niu 等人 [54] 将语言混淆表述为问题对答案的直接因果效应。为了消除这种虚假的联系,他们建议从总因果效应中减去直接的语言效应。他们将这种方法称为反事实VQA (CFVQA)。
图 8.11.反事实 VQA [54]
图 8.11.a 说明了传统的 VQA 和反事实的 VQA 在工作上的不同之处。传统的 VQA 会问 : “如果机器听到问题 Q,看到图像V,提取多模态知识K,那么答案A会是什么 ? ” 这样就无法将单模态语言效应和多模态推理效应分离开来。
为了分离语言效应,Niu 等人考虑了以下反事实问题 : “ 如果模型没有执行多模态推理,会发生什么 ? ” 这对应于反事实查询,机器考虑的模型是 Q,但多模态知识 K 在无处理条件下被干预,即,好像 V 和 Q 没有被访问。由于 K 对 Q 的响应被阻塞,模型只能依靠单模态效应,有效地隔离了语言偏差。图 8.11.c 描述了相应的因果 DAG。
通过推断反事实问题 “如果模型读到 Q,但没有提取 K 或看到 V,A 会是什么?”,CFVQA 提取出了语言偏差。然后,为了在最后的查询中减少它,从 和 对 的总效应中减去它,也称为总直接效应 (TDE)。这个 TDE 估计不同于传统 VQA 的后验分布 。
8.2.1.2 针对自然语言攻击的认证鲁棒性
Original Text Prediction = Negative. (Confidence = 78.0%) |
---|
This movie had terrible acting, terrible plot, and terrible choice of actors. (Leslie Nielsen ...come on!!!) the one part I considered slightly funny was the battling FBI/CIA agents, but because the audience was mainly kids they didn't understand that theme. |
Adversarial Text Prediction = Positive. (Confidence = 59.8%) |
This movie had horrific acting, horrific plot, and horrifying choice of actors. (Leslie Nielsen ...come on!!!) the one part I regarded slightly funny was the battling FBI/CIA agents, but because the audience was mainly youngsters they didn't understand that theme. |
表 8.1.情感分析任务的自然语言对抗性例子 [302]。我们分别用绿色和红色为原文和对抗性文本突出显示修改词。
Alzantot 等人 [302] 揭示了情绪分析模型可以被同义词替换攻击所欺骗,如表 8.1 中他们的对抗例子所示。这激发了大量的工作,使 NLP 模型对这种攻击更鲁棒 [303,304,305,306]。
Zhao 等人 [307] 从因果的角度看待自然语言攻击问题,并将对抗性脆弱性的来源定义为混杂词引起的虚假联想。图 8.12.a 说明了它们的因果 DAG。例如,当考虑来自 IMBD 数据集 [308] 的电影评论 () 时,专业评论家很可能使用专业术语 (),标准很高,因此更有可能给出较低的平均分。这种虚假的联系可以被利用,例如,在正面的电影评论中加入更多的行话。
图 8.12.语义平滑的因果干预 (CISS) [307] : 一个通过学习 来抵御自然语言攻击的鲁棒性框架。
为了保护模型免受此类攻击,Zhao 等人 [307] 表明,基于高斯的随机分类器对介入分布 建模,因此对 界攻击具有鲁棒性。然而,文本输入空间不是连续的,文本替换不遵循高斯分布。为了规避这些问题,他们建议将学习过的内容变量 的潜在语义空间平滑化,如图 8.12.b 所示。他们把这个框架称为语义平滑的因果干预 (CISS)。
8.2.2 反事实解释
通过反事实语言模型解释因果模型 : 理解输入中的概念对模型的影响对于解释和模型传播是至关重要的。然而,这通常需要通过删除/替换兴趣的概念来生成反事实序列,这对现有的文本生成模型是一个挑战。Feder 等人 [309] 提出了一个名为 CausalLM 的框架来生成反事实表示,而不是反事实序列。为此,Feder 等人 [309] 微调了带有辅助对抗任务的深度上下文化嵌入模型,以鼓励模型 “忘记” 兴趣的概念。将输入序列的表示和忘记兴趣概念的反事实表示输入分类器,以衡量概念对分类器预测的影响。
用因果中介分析调查性别偏差 : 许多文本语料库由于性别刻板印象而含有虚假联想,这些联想被语言处理系统传播或放大。例如,由于目前工程领域的性别差异,“他是工程师” 这句话比 “她是工程师” 更有可能出现在语料库中 [310]。
图 8.13.使用中介分析调查性别偏见 [311]。给定一个提示 u,例如 “护士说”,我们要求语言模型生成一个延续。一个有偏见的模型可能会赋予她比他更高的可能性。为了理解模型组件在这个有偏见的预测中的作用,我们执行了 do-操作 ,这在本例中将 u 从护士更改为男子。通过推断直接和间接的影响,我们可以分析位于 x 和 y 之间的特定介质 (神经元) 的因果作用。
Vig 等人 [311] 提出了一种方法来解释模型的哪些部分是有偏见的。他们的方法使用因果中介分析来定位神经模型的哪些部分是因果牵连的。这种方法可以说比探测等其他分析工具更好,因为探测只能度量信息是否在隐藏表示中编码,而不能度量模型是否实际使用了信息。Vig 等人 [311] 利用这种方法在预训练的语言模型中定位性别偏见。他们研究了个体神经元和注意力在调节性别偏见中的作用,发现性别偏见的影响集中在模型的特定组件中。
基于鲁棒性的文本分类中的反事实公平性 : 文本分类器对输入的某些内容非常敏感。例如,一个毒性模型预测,“有些人是同性恋” 的毒性是98%,而 “有些人是异性恋” 的毒性只有2%。Garg 等人 [312] 通过提出反事实问题 “如果一些敏感标记不同,分类器的输出将如何改变?” 来研究文本分类中的反事实公平性。他们定义了一个名为反事实令牌公平的度量,用来测量替换与身份组相关的令牌前后输出之间的差异。他们进一步评估了三种促进公平的方法,包括用特殊的令牌替换所有敏感令牌、反事实数据增强和被称为反事实 logit 配对的正则化。
8.2.3 反事实的数据增强
反事实生成器 : Zeng 等人 [313] 提出了一种新的基于反事实推理的实体识别数据增强算法。每个输入序列分为实体和上下文两部分。输入序列中的实体被替换为具有相同实体类型的另一个实体。当且仅当鉴别器能够正确识别被替换的实体时,才保留扩展示例。Zeng 等人 [313] 发现这种数据增强方法可以提高在低资源环境下的泛化能力。此外,对增强示例的训练可以部分消除上下文和输出标签之间的虚假关联。
神经网络机器翻译中的反事实数据增强 : Liu 等人 [299] 设计了一种用于神经机器翻译的反事实数据增强方法。该方法对语言模型和短语对齐进行因果解释。他们分别使用屏蔽语言模型和翻译语言模型来替换源短语和目标短语。与以前的工作相比,该方法同时考虑了上下文和对齐的数据增强。
用形态丰富的语言缓解性别刻板印象 : 在章节 8.2.2 中,我们了解到许多文本语料库包含性别偏见。通常,这种偏见存在于世界上许多不同的语言中。大多数自然语言处理的研究都专注于减轻英语中的性别刻板印象 [314,315]。然而,这些方法通常会在形态丰富的语言 (如西班牙语) 中产生不合语法的句子。为此,Zmigrod 等人 [316] 提出了一种反事实数据增强方法,以减轻与代表人的名词相关的性别刻板印象。
他们的无监督方法使用了来自 Universal Dependencies 语料库 [317] 的依赖树、引理、词性标记和形态句法标记。它包括四个步骤 : (1) 对句子的分析 (包括解析等),(2) 对词性词的干预,(3) 对新的形态句法标签的推断,(4) 对引理的新形式的反射。他们使用了四种不同的语言,证明他们的方法在不牺牲语法性的情况下,平均减少了2.5个性别刻板印象。
8.2.4 杂项
类别 | 示例 NLP 任务 |
---|---|
因果学习 | 摘要、解析、标记、数据到文本的生成、信息提取 |
反因果学习 | 作者属性分类,评论情感分类 |
混合 (取决于数据收集) | 机器翻译,问题回答,问题生成,文本风格转换,意图分类 |
表 8.2.将典型的NLP任务分为因果学习任务、反因果学习任务和混合学习任务 [320]。因果学习是指模型以原因为输入,预测结果;反因果性是指模型将结果作为输入并预测原因的设置。有些任务对数据收集过程没有明确的因果解释,或者通常使用两种类型的数据的混合。
数据收集的因果方向 : 监督学习问题的目的是基于特征 预测一个标签 Y。从因果的角度来看,我们可以进一步将该问题区分为两种情况 : 因果学习和反因果学习,分别由数据收集过程为 或 决定。换句话说,如果在数据收集过程中,首先生成 ,然后根据 收集 Y (例如,通过注释),我们说 导致 Y (因果学习)。反之亦然,如果首先生成 Y,然后根据 Y 收集 ,我们说 Y 导致 (反因果学习)。
先前的研究表明,这种简单的区别对于协变量移位、迁移学习、半监督学习 [318] 和对抗例子 [319] 等场景具有重要意义。
Jin 等人 [320] 研究了普通 NLP 数据集的数据收集过程的因果方向,如表 8.2 所示。例如,他们观察到,语言句子对在机器翻译中会混合在一起,而不管它们的原始来源到目标的方向是什么 (例如,一个句子是否起源于英语并被翻译成西班牙语或反之亦然)。相应地,将数据划分为子集会显示出不同的属性,例如在自监督或域自适应设置中的性能差异。根据这些发现,作者对未来的研究提出了各种建议,例如,在收集新的 NLP 数据时注释因果方向,并将其纳入模型。
8.3 图表示学习
在许多应用领域中,图表示关系和交互的系统。例子包括社交网络 [321]、分子图 [47]、蛋白质关联 [322] 和编程代码语法树 [323]。图神经网络 (GNNs) 为学习这种图结构数据的表示形式形成了一个有效的框架。
8.3.1 因果监督学习
发现 GNNs 的不变原理 : 图神经网络的内在可解释性旨在发现输入图中对模型预测贡献最大的一小部分。大多数关于内在可解释性的研究都容易发现数据偏差和虚假的相关性,而未能捕捉到因果模式。
此外,这些方法对分布外数据敏感,对假相关敏感,性能下降。Wu 等人 [324] 通过发现不变原理提出了一种新方法。首先应用原理生成器将每个输入图划分为因果和非因果子图。因果和非因果子图被编码到隐藏表示中。然后对非因果表征进行因果干预以产生扰动。最后,利用两个分类器进行预测,并利用不变风险损失函数对模块进行训练。
不变性原理在图上遇到非分布泛化 : Chen 等人 [325] 提出了图非分布(GOOD)框架,类似于风格和内容分解(Def. 3.1.1),用于学习不变性图特征。为此,设计了一个特征化器来区分不变子图与图中容易受域移位干扰的其他部分。作者证明了这种方法改进了域外泛化。
不变性原理在图上遇到域泛化 : Chen 等人 [325] 提出了图分布相异 (GOOD) 框架,类似于风格和内容分解 (定义 3.1.1),用于学习不变性图特征。为此设计了一个特征化器来区分不变子图与图中容易受域移位干扰的其他部分。作者证明了这种方法改进了域泛化。
假设图 8.14.b 中存在真正的潜在因果 DAG, Chen 等人 [325] 将内容 和风格 之间的相互作用分为三种可能的 DAG,这取决于 是否对 Y 有充分的信息,即 : 完全信息不变特征 (FIIF,图 8.14.c),部分信息不变特征 (PIIF,图 8.14.d)。主要区别是 在 FIIF 中直接受 控制,而在 PIIF 中通过 Y 被 间接控制,在观测到的分布位移中会表现出不同的行为。
为了从完整的观察图 中提取包含潜在内容特征 的不变子图,作者在图生成过程中明确对齐了两种因果机制,即 和 。图 8.14.a 说明了对齐过程 : 他们将 GNN 分解为两个子组件 : i) 特征器 GNN ,旨在识别所需的 ;ii) 分类器 GNN ,根据估计的 预测 Y,其中 指的是 的子图空间。
针对图神经网络的去混杂训练 : Sui 等人 [326] 旨在将每个输入图区分为关键部分和琐碎部分。因为琐碎的部分是关键部分和标签之间的混淆器,这打开了一个后门,导致虚假的相关性。因此,Sui 等人 [326] 提出去混杂训练以减轻混淆效应。他们使用注意力模块将每个图划分为关键子图和平凡子图。然后通过后门调整来消除琐碎子图的混杂效应。
8.3.2 反事实的数据增强
从反事实链接中学习链接预测 : GNN 的一个常见任务是预测节点对之间的边 (或链路)。例如,链接可以指论文之间的引用 [327],知识图中的关系 [323],或者分子之间的相互作用 [47]。
Zhao 等人 [328] 指出,图结构与链接存在之间的因果关系在很大程度上被忽视了。作者举了一个社交网络的例子。想象一下 Alice 和 Adam 住在同一个社区,他们是亲密的朋友。把邻里关系和友谊联系在一起可能过于强烈,以至于无法识别出友谊的基本组成部分,比如共同的兴趣或家庭关系。这种虚假的联想也可以解释为什么他们住在同一个社区。
因此,Zhao 等人 [328] 建议检验反事实问题 “如果 Alice 和 Adam 不住在同一个社区,他们还会是亲密的朋友吗?”一般来说,任何反事实链接预测查询都遵循“如果图结构与观察到的图结构不同,那么链接是否存在?”的结构。链接预测模型训练了相应的反事实较少依赖于虚假的联系如上所述。
因此,Zhao 等人 [328] 建议检验反事实问题 “如果 Alice 和 Adam 不住在同一个社区,他们还会是亲密的朋友吗?” 一般来说,任何反事实链接预测查询都遵循 “如果图结构与观察到的图结构不同,那么链接是否存在?” 的结构。链接预测模型训练了相应的反事实较少依赖于虚假的联系如上所述。
图 8.15.反事实链接预测框架 [328]。
Zhao 等人 [328] 生成反事实链接,以增强链接预测任务的训练数据。他们的方法估计了观察到的图结构 (被认为是干预) 和链接存在 (结果) 之间的因果关系。图 8.15 总结了他们的方法。
8.3.3 杂项
利用因果效应不确定性解决过平滑问题 : GNN 普遍面临的一个问题是过度平滑,这意味着不同类别的图节点的表示变得难以区分,常常导致局部结构差异 [329]。真实世界的图通常表现出局部变化的结构,例如,同质性和度等属性的不一致分布。
Feng 等人 [330] 的目的是通过考虑局部结构对预测的因果影响的不确定性,在推理时解决这种节点特定结构差异。因果效应不确定度是指在根据测试节点的局部结构预测其标签时,测试节点是否值得信任。如果局部结构表现出与观察到的不同的性质,因果效应的不确定性将很高,表明预测的类可能是不正确的。
关联图神经网络与结构因果模型 : 因果关系通常用结构因果模型来描述,该模型由感兴趣的变量和变量之间的因果机制组成。在现实世界的应用中,潜在的结构因果模型通常是部分可见的。图神经网络作为结构化数据学习的强大工具,非常适合于因果学习。为此,Zečević 等人 [331] 提供了理论分析,以建立图神经网络和结构因果模型之间的几种联系。通过形式化干预图神经网络,设计了一种新的神经因果模型类。他们还为这种新的神经-因果模型类的可行性、表达性和可识别性提供了理论结果和证明。