因果机器学习调研综述(上)

552 阅读1小时+

目录与链接

因果机器学习调研综述(上)

因果机器学习调研综述(中)

因果机器学习调研综述(下)

因果机器学习调研综述(引用上)

因果机器学习调研综述(引用下)

0.综述信息和个人感想

  之前零零散散找了些论文,但总感觉不够体系化,而且虽然都是使用因果推断,但是实际上大家使用的领域和具体使用的方法也不尽相同 (毕竟本身因果推断也都有很多流派)。所以我觉得这是一个非常有价值的资料,也希望自己能够努力去理解,对于机器学习中的因果推断有一个较为体系以及系统的认知,更上一层楼。

1.介绍

  今天的机器学习 (ML) 技术擅长在独立和同分布 (i.i.d) 数据中寻找关联。一些基本原则,包括经验风险最小化、反向传播和架构设计中的归纳偏差,已经为解决计算机视觉、自然语言处理、图表示学习和强化学习等领域的问题带来了巨大的进步。然而,在将这些模型部署到现实环境中时,出现了新的挑战。这些挑战包括: (1) 当数据分布转移时泛化性能大幅下降 [1],(2) 生成模型[2]样本缺乏细粒度控制 [2],(3) 有偏见的预测强化了某些子种群的不公平歧视 [3,4],(4) 可解释性的概念过于抽象和问题独立,[5] (5)强化学习方法对真实世界问题的不稳定转换。

  许多工作认为,这些问题的部分原因在于现代ML系统缺乏因果形式主义 [7,8,9,10,11]。随后,研究社区对因果机器学习 (CausalML) 的兴趣激增,这是利用关于被建模系统的因果知识的方法本调查涵盖了因果关系如何被用来解决开放式ML问题。

  简而言之,因果推理提供了一种语言,通过结构因果模型 (SCMs) 将关于数据生成过程 (DGP) 的结构知识形式化 [12]。使用 SCM,我们可以估计在对数据生成过程进行更改(称为干预)后,数据会发生什么变化。更进一步,它们还允许我们在事后模拟变化的后果,同时考虑实际发生的情况(称为反事实)。我们将在第2章中更详细地介绍这些概念,假设没有因果关系的先验知识。

  尽管在设计各种类型的CausalML算法方面做了大量的工作,但仍然缺乏对其问题和方法论的明确分类。我们认为,部分原因在于CausalML通常涉及对大部分ML不熟悉的数据的假设,这些假设在不同的问题设置之间联系起来通常很棘手,这使得很难衡量进展和适用性。这些问题是本次综述的动机。

1.1 主要的工作

  1. 我们对完全独立的因果关系中的关键概念进行了简单的介绍(第2章)。我们不假设对因果关系有任何先验知识。在整个过程中,我们给出了如何应用这些概念来帮助进一步的地面直觉的例子。

  2. 我们将现有的CausalML工作分类为因果监督学习(第3章)、因果生成模型(第4章)、因果解释(第5章)、因果公平(第6章)、因果强化学习(第7章)。对于每个问题类,我们比较现有的方法,并指出未来工作的途径。

  3.我们回顾了特定模式在计算机视觉、自然语言处理和图表示学习中的应用(第8章),以及因果基准(第9章)。

  4. 我们讨论了好的、坏的和丑陋的:我们关于与非因果ML方法相比,因果ML可以给我们带来哪些好处的观点(好的),人们必须为这些方法付出什么代价(坏的),以及我们警告从业者要防范哪些风险(丑陋的)(第10章)。

图 1.1.因果机器学习的分类

2.因果关系:一个最小化的介绍

符号标记

G   Graphdo()   do-operatorpa(Xi),pai   Causal parents of XiM   Structural Causal Model\mathcal{G}\ \ \ \text{Graph}\\ \text{do}(\cdot)\ \ \ \text{do-operator}\\ \text{pa}(X_i),\text{p}a_i\ \ \ \text{Causal parents of }X_i\\ \mathcal{M}\ \ \ \text{Structural Causal Model}

2.1 贝叶斯网络

  为了推断一些随机变量对其他随机变量的因果影响,我们需要将因果关系形式化。因果关系的典型表示是因果有向无环图(因果 DAG),也称为因果图。它可以编码关于利益因果结构的先验假设(例如,从专家知识中构建)。

  在定义因果DAG之前,我们引入一些术语来定义DAG和贝叶斯网络(BNs): 一种表示随机变量之间概率关系的概率图形模型。从那里,我们推动了立因果关系模型,因为它们补充了贝叶斯网络对干预和反事实的推理能力。

2.1.1 图

  图 G\mathcal{G} 是节点和连接 (一些) 节点的边的集合。在有向图中,边是有向的: 从父节点指向子节点。从视觉上看,这个方向由箭头表示,我们用 pa(X)\text{pa}(X) 表示节点 XX 的父节点。由边连接的节点称为相邻节点。

图片2.1.贝叶斯网络与因果贝叶斯网络的比较

  图中的路径是相邻节点的任意序列,与连接它们的边的方向无关。例如 ABCA\leftarrow B\rightarrow C 是路径,但不是有向路径,后者是由所有指向相同方向的有向边组成的路径,如 ABcA\rightarrow B\rightarrow c。如果存在从节点 X 开始,到节点 Y 结束的有向路径,我们称 X 为 Y 的祖先,称 Y 为 X 的后代(记为 Yde(X)Y\in \text{de}(X))。有向环是指从节点 A 开始,以节点 A 结束的有向路径。有向无环图 (DAG) 是指没有有向环的有向图。

  为简单起见,我们假设所有分布都具有密度函数,并用 p(X)p(X) 表示随机变量 X 的分布。

2.1.2 联合分布分解的图

  图表是概率和因果分析中有用的建模工具的一个原因是,它们允许人们方便地表达一组变量上的联合分布是如何因式分解的。具体来说,我们将展示图如何允许对 (条件) 独立关系进行编码。为了解释这一点,我们采用 Pearl 给出的一个介绍性示例 [12]。

  想象一下,你是一名研究科学家,任务是学习一种安全关键的机器学习系统,该系统可以检测你所在城市的湿滑路面,例如,防止你的同事在去办公室的路上滑倒。

  考虑以下连续特征: 一年的时间 T,草坪喷头启用持续时间 D,降雨量 R,路面滑度 S。形式上,我们的目标是对联合分布 p(t,d,r,s)p(t, d, r, s) 建模。

  链式概率法则 (或乘积法则) 总是允许我们将 N 个变量的联合分布分解为 N 个条件分布的乘积:

p(t,d,r,s)=p(td,r,s)p(dt,r,s)p(rt,d,s)p(st,d,r)(2.1)p(t, d, r, s)=p(t|d, r, s)p(d|t,r,s)p(r|t,d, s)p(s|t,d,r)\tag{2.1}

  请注意,每个条件分布是所有其他 N-1 特征的函数,其域需要在剩余特征的所有可能值组合上定义。随着 N 的增加,这种朴素的因式分解很快就变得难以处理。

  幸运的是,领域中的一些工作者已经提出了描述这些变量如何相关的 DAG,如图 2.1.a 所示。这很有用,因为我们可以用它来描述条件独立关系。


定理 2.1.1: Markov (马尔可夫) 条件 [12]

  给定图 G\mathcal{G} 中结点 X\mathbf{X} 的联合分布 p(X)p(X),每个结点 XiX_i 的父结点 pai\mathbf{pa}_i 使 XiX_i 独立于它的非后代结点 Xdei\mathbf{X \setminus de}_i,即

p(xi  pai)=p(xi  Xdei)p(x_i\ |\ \mathbf{pa}_i)=p(x_i\ |\ \mathbf{X\setminus de}_i)

  这立即意味着对联合分布进行下面的因式分解

p(x)=ip(xi  pai)p(x)=\prod_ip(x_i\ |\ \mathbf{pa}_i)

  联合分解的结果很容易证明: 考虑用定理 2.1.1 替换公式 (2.1) 右边的所有项

p(t,d,r,s)=p(t)p(d  t)p(r  t)p(s  d,r)(2.2)p(t, d, r, s)=p(t)p(d\ |\ t)p(r\ |\ t)p(s\ |\ d,r)\tag{2.2}

 这个关节的因式分解就是图中所有变量的乘积,这些变量的条件是它们的父变量 (如果有的话) 。这种根据 DAG 关系将一个潜在的大联合分布 p(x)p(x) 分解成几个小的条件分布的思想是贝叶斯网络的核心思想。


机器学习视角的定理 2.1.1: 自回归分布因子分解

  自回归模型是利用基于条件独立假设的联合分布因子分解的现代机器学习技术的一个例子。例如,在生成式建模中,一些方法 [15,16] 通过 DAG 分解来表示图像 x 在特定像素下逐像素的分布,即使不要求独立性:

p(x)=i=1Np(xix<i)(2.3)p(\bold{x})=\prod_{i=1}^Np(x_i|\bold{x}_{<i})\tag{2.3}

  其中 x<i=[x1,x2,...,xi1]\bold{x}_{<i}=\left[x_1,x_2,...,x_{i-1}\right] 表示下标小于 i 的像素向量。这样做的好处是,比如使抽样更容易或允许条件句学习并行。

  类似地,对于序列建模任务(例如,使用递归神经网络进行语言建模 [17]),我们通常假设所有标记的联合分布可以分解为只依赖于参数为 θ\theta 的可学习函数 fθf_\theta 产生的隐藏状态 h 的条件,即:

p(x)=t=1Tp(xtxt1),  ht=fθ(xt,ht1)(2.4)p(\bold{x})=\prod_{t=1}^Tp(x_t|\bold{x}_{t-1}),\ \ \bold{h}_t=f_\theta(x_t,\bold{h}_{t-1}) \tag{2.4}

2.2 因果贝叶斯网络

2.2.1 干预

  贝叶斯网络产生了利用关于利益分布的结构知识来更有效地表示它。然而,正如我们将在本小节中看到的那样,贝叶斯网络仍然无视对分发的底层过程的干预。

  假设 D 量化了洒水喷头的开启时间,你想要推断如果它被设定为某个常数 D 会发生什么,例如你想要更好了解的: 洒水车和滑度之间可能存在的非线性关系。

  使用贝叶斯网络的工具,也许最明显的策略是首先推断条件分布

p(t,r,sd)=p(t)p(dt)p(rt)p(sd,r)(2.5)p(t,r,s|d)=p(t)p(d|t)p(r|t)p(s|d,r) \tag{2.5}

  然后,如果我们只对 p(sd)p(s|d) 感兴趣,我们可以用求和法则把其他变量边缘化。但是,p(sd)p(s|d) 是什么意思?假设我们的观测变量 D=dD=d,这是 S 的分布。换句话说,我们将我们的焦点限制在洒水器确实设置为 d 的那些观测。

  让我们考虑一下检查这个观测分布的含义: p(sd)p(s|d) 表示通过 p(dT)p(d|T) 在一年 T 的季节中观察到 d 的概率,由式子 (2.5) 可知。

  现在,切换到因果推理工具,我们的兴趣量通常是一个干预,我们用操作符表示。在上面的例子中,我们会对估计 p(sdo(d))p(s|\text{do}(d)) 感兴趣。其含义的不同之处在于,如果我们对 D 的值进行干预并将其设置为 d,p(sdo(d))p(s|\text{do}(d)) 表示 S 的分布。这意味着我们没有考虑我们观察到的某个子种群 D=dD =d,但我们会对采取 do(d)\text{do}(d) 操作后(总的)种群发生的情况进行推理。

  回到我们的例子,图 2.1.b 显示了动作发生后的新网络表示。很自然地我们从图 2.1 中去掉了箭头 TDT\rightarrow D,因为在将 D 设置为常量 1 后,它不再依赖于任何其他变量。

  形式上,与公式 (2.5) 中的观察条件分布相比,有一个微小而显著的差异:

p(t,r,sdo(d))=p(t)p(dt)=1p(rt)p(sd,r)(2.6)p(t,r,s|\text{do}(d))=p(t)\underbrace{\cancel{p(d|t)}}_{=1}p(r|t)p(s|d,r) \tag{2.6}

  我们不再关心一年的季节和行动之前的洒水器之间的任何关系,因为这种关系当我们执行这个动作已经不再有效。一旦我们打开洒水器,一种不受季节影响的新机制就会决定洒水器的状态。


定理 2.2.1 : 截断因子分解 [12]

  我们假设p和G满足马尔可夫假设和模性。给定一组干预节点S,如果x与干预一致,则

p(x1,...,xndo(s))=iSp(xipai)(2.7)p(x_1,...,x_n|\text{do}(s))=\prod_{i\notin S}p(x_i|\mathbf{pa_i}) \tag{2.7}

否则 p(x1,...,xndo(s))=0p(x_1,...,x_n|\text{do}(s))=0


  然而要产生一个有效的因果贝叶斯网络使上述介入分布的估计成为可能,我们必须做出比贝叶斯网络更强有力的假设,后者基于关于基础系统的因果(而不是关联)知识。我们在这里不讨论这些,因为我们很快将在第2.3节介绍另一种因果关系的形式。

  我们的结论是,因果贝叶斯网络不同于常规贝叶斯网络,例如,因为常规贝叶斯网络中的条件独立性假设并不一定意味着因果关系。它们隐含的因式分解对任何递归独立集和变量的任何排序都有效。

  为了说明两者之间的差异,回想一下我们在图 2.1.a 中所示的初始例子。在这里,因为看起来已经有因果关系,我们很方便地做了独立假设。或者,我们可以提出一个独立结构,如图 2.1.c 所示,其中边是翻转的

p(t,d,r,s)=p(td,r)p(d,rs)p(s)(2.8)p(t,d,r,s)=p(t|d,r)p(d,r|s)p(s) \tag{2.8}

  根据常识,相应的DAG似乎不是因果关系。根据众所周知的自然规律,我们不能期望路面的滑溜会导致大量的降雨。然而,为了统计推断的目的,用这种方式分解联合分布是完全足够的。

图 2.2.条件分布与介入分布的比较

2.2.1.1 干预措施的实例

  下面的例子旨在提供关于有条件分布和介干预性分布如何不同的直觉。


浓缩咖啡机 [19]

  假设 Y 是浓缩咖啡机锅炉的压力,X 是内置气压计的读数。给定一个正常工作的晴雨表,p(yx)p(y|x) 是一个以 x 为中心的单峰分布,由于测量噪声而具有随机性。但是,如果我们打破气压计,强行将其设置为 0,就不会影响罐内的压力。因此p(ydo(x))=p(y)p(yx)p(y | \text{do}(x)) = p(y)p(y | x)


医药治疗 [18]

  想象一个数据集,其中每个观察 (xi,ti,yi)D(x_i, t_i, y_i)\in\mathcal{D} 表示一位医院患者的病史记录 xix_i,以分子图形式 tit_i 表示处方药物治疗,以及健康结果 yiy_i。图 2.2 说明了在这种设置中,干预 p(ydo(t))p(y|\text{do} (t)) 如何指的是这样一种场景 : 所有被描述的具有病史特征 x 的患者接受治 疗t,而条件分布 p(yt)p(y | t) 将我们的重点限制在接受治疗 t 的 X 亚群中。


2.2.2 反事实性

  回想一下第 2.1.2 节中关于洒水器的例子,想象一下有一天,你收到经理的邮件,告诉你 S 数值非常高,更糟糕的是,你的一个同事滑倒并摔断了胳膊。你的经理让你找出在什么情况下 S 会在那天被降低。他们甚至和你分享一个假设并认为你应该测试 : ”如果洒水器关闭了,滑度就会很低。”

  你的经理的陈述——一个没有实现”如果”部分的”如果”陈述——是一个反事实的陈述。它结合了事实数据 (当天 D 非零) 和干预 (设置 D0D\leftarrow0 ),其中部分环境保持不变 (T,R)(T, R)。因此,它产生了在相同条件下比较两种只是在一个方面不同的结果。

  要形式化一个反事实的陈述,我们需要超越仅仅使用do操作。例如,假设在那一天,我们观察到打滑 s,一年的时间 t,下雨 r,和潮湿 w。简单地写 p(sdo(d),s,t,r)p(s |\text{do}(d),s, t, r) 会导致假设的打滑和实际观察到的打滑之间的冲突 [20]。

  一种明确区分的方法是用不同的下标来标记利益的两种结果——事实和反事实。我们用 S0S_0 表示实际的滑度,用 SdS_d 表示干预下的反事实 D=dD=d 下的滑度,这样我们的估计就变成了 p(SdS0,do(D),t,r)p(S_d | S_0, \text{do}(D),t, r)

  这种表示法方便地表示我们感兴趣的量,但不能对其估计进行操作。为了实现后者,我们需要结构因果模型(SCMs) 。我们将在第2.3节介绍这些,并以另外两个反事实的例子来结束当前的问题。

2.2.2.1 反事实性的实例

  直觉上,反事实是给定一个观察到的结果的假设的回顾性干预。这种类型的查询有效地提供了数据解释,因为我们可以分析操作每个变量所产生的更改。在2.2.1.1 节比较了条件分布和介入分布之后,我们在这里对比了介入分布和反事实分布。


医药治疗

  让我们重温 2.2.1.1 节中的医疗例子,我们将 p(yx,do(t))p (y | x, \text{do}(t)) 描述为所有具有病史特征 x 的患者接受 t 治疗的场景。也许在这个场景中我们能想到的最明显的反事实量是 p(ytdo(t),x,t,y)p (y_{t '} | \text{do}(t '),x, t, y)

  p(yx,do(t))p (y | x,\text{do}(t '))p(ytdo(t),x,t,y)p (y_{t'} | \text{do}(t'),x, t, y) 在语义上有什么不同?后者可以被解释为想象前者在 x、t、y 发生的”事实之后”。所以不是问 ”如果我们给病人 x 做 t 治疗会怎么样?”,后者是回溯性的,问 ”如果我们给病人 x 做 t' 治疗而不是 t 会怎么样?”


图像编辑

  设 XRDX\in\mathbb{R}^D 为一个图像。通常,我们假定 X 可以用低维的、有语义意义的变异因子来描述。例如,假设我们观察一张图像x,并推断出它 (潜在的) 主要感兴趣的目标 o 和背景特征 b。然后,我们可以通过从反事实分 x~p(xbx,do(b),o,b)\tilde{x}\sim p(x_{b'}|x,\text{do}(b'),o,b) 中采样,以可控的方式对背景经过编辑的图像进行采样。

  p(xo,do(b))p(x|o,\text{do}(b'))p(xbx,o,b)p(x_{b'} | x,o,b) 有什么不同?如果我们从前一种分布中采样图像,根据其方差,我们可能会得到一组非常不同的图像,其对象和背景特征分别为 o, b。如果我们从后者采样,我们期望采样的图像除了背景之外看起来完全相同。


2.2.3 Pearl 的因果阶梯理论

layerActivitySemanticsExample
(1) 关联的 p(yx)p(y\vert x)观测看到 x 会如何改变我对 Y 的信念?关于这种疾病,症状告诉我们什么?
(2) 干预的 p(ydo(x),z)p(y\vert\text{do}(x),z)操作如果我做 x,Y 会怎样?如果我吃阿司匹林,我的头痛会好吗?
(3) 反事实的 p(yxx,y)p(y_{x'}\vert x,y)想象是 x 导致了 Y 吗?是阿司匹林止住了我的头痛吗?

表 2.1.Pearl 的因果阶梯理论 [12]

  表2.1给出了Pearl的三层因果阶梯 [12],总结了条件分布 (或相关分布) 、介入分布和反事实分布之间的差异。它也被称为因果层次,因为层次 i{1,2,3}i\in\{1,2,3\} 的问题只有当层次 jij\ge i 的信息可用时才能回答。换言之,反事实包含了介入性和关联性问题,所以它位于层级的顶端。我们将很快在2.3节中看到,可以回答反事实问题的模型也可以回答关于观察和干预的问题。

2.3 结构化的因果模型

  在第 2.2 节中,我们学习了因果贝叶斯网络如何使我们从常规贝叶斯网络的关联分布转移到介入性贝叶斯网络。然而,我们无法用因果贝叶斯网络构建反事实分布。在本节中,我们学习另一种因果形式主义,它确实允许分析反事实。

  这种形式主义就是结构因果模型 (SCM),有时也被称为结构方程模型或功能因果模型 [12]。在 SCM 中,我们以确定性的函数方程的形式来表达因果关系,这反映了拉普拉斯的自然规律是确定性的,随机性是纯粹的认知概念 [12]。因此,我们在 SCM 中引入了随机性,其基础是假设方程中的某些变量仍然是不可观测的。


定义 2.3.1 : 结构因果模型

  一个 SCM 模型 M:=(S,p())\mathcal{M}:= (S, p()) 由结构赋值 S={fi}i=1NS = \{f_i\}^N_{i=1} 组成,

xi:=fi(ϵi;pai)(2.9)x_i:=f_i(\epsilon_i;\mathbf{pa}_i) \tag{2.9}

  其中,pai\mathbf{pa}_ixix_i 的亲本 (其直接原因) 的集合,联合分布 p(ϵ)=i=1Np(ϵi)p(\epsilon)=\prod_{i=1}^Np(\epsilon_i) 除以相互独立的外生噪声变量 (即未被解释的变异源)。

  对于每个 SCM,我们通过为每个 xix_i 添加一个顶点并从 pai\mathbf{pa}_i 中的每个父项 (原因) 到子项 xix_i (结果) 添加有向边来生成DAG G。

(备注) : 这些变量不需要正式独立,但为了调查的目的,假设这些变量是独立的就足够了。


  公式 (2.9) 的意思是,在任何 SCM 中,我们都有每个变量 xix_i 是由亲本变量引起的,而未观察到的外生“噪声”变量 i。为了表示噪声变量可能起主要作用,有时使用更标准的随机变量符号 UiU_i 来表示它们。外生变量存在于每个 SCM 中,因此为了简洁起见,经常从因果关系图中省略这些变量。

  由于每个 SCM 都诱导出一个(因果)图,因此它还隐含了定理 2.1.1 中先前引入的马尔可夫条件。我们称之为因果马尔可夫条件,因为DAG包含变量之间的因果关系。


定理 2.3.1 : 因果马尔可夫条件 [12]

每个 SCM M\mathcal{M} 都需要一个联合密度 pM(x)p_\mathcal{M}(x),使得在给定 G 种的双亲 pai\mathbf{pa}_i 的情况下,每个变量 XiX_i 独立于它的所有非后代变量。


2.3.1 干预措施

  我们已经在第2.2.1节学习了中使用因果贝叶斯网络来估计干预的想法。SCM 模型还允许我们预测干预的效果:我们只需用干预的值替换其一个或多个结构赋值。

  SCM 的观点进一步强调了干预措施 p(ydo(x))p(y|\text{do}(x')) 和反事实 p(yxdo(x),x)p(y_{x'}|\text{do}(x'),x) 之间的差异:干预措施在整体水平上运作,因为如果我们通过 SCM 构建干预分布,其外源噪声项仍然包括先前的分布 p(ϵ)p(\epsilon),而不是来自包含我们对已经发生的事情的认知的后验 p(ϵx)p(\epsilon|x)

  反事实问题的解决方案是对 “如果发生了什么” 问题的个人层面的回答,在这个问题中,所有外生变量来源都得到了控制,让信息通过一组 (修改后的) 结构方程传递。关于外生变量的信息可以从已经实现的可观测变量中获得。

2.3.2 反事实推断

  为了计算反事实,我们可以操纵现有的 SCM 并将其变成反事实的 SCM。为此,我们在给定观测数据 x 的情况下估计外源噪声项 p(ϵx)p(\epsilon|x)


定义 2.3.2 : 反事实的 SCM 模型 [7]

  考虑节点 X 上的 SCM M=(Sp(ϵ))\mathcal{M}=(S,p(\epsilon))。给定观测 x,我们通过将噪声变量 p(ϵ)p(\epsilon) 的先验分布替换为后验 p(ϵx)p(\epsilon|x) 来定义反事实 SCM

Mx:=(S,p(ϵx))(2.10)\mathcal{M}_x:=(S,p(\epsilon|x)) \tag{2.10}

  给定一个反事实的 SCM Mx\mathcal{M}_x,我们通过额外干预其结构赋值 S 来产生反事实分布。为了说明这一点,令 S~\tilde{S} 表示具有干预 do(xi=x~i)\text{do}(x_i=\tilde{x}_i) 的修改的结构分配。然后,我们将修改后的反事实 SCM 表示 M~:=Mx,do(x~i)\tilde{\mathcal{M}}:=\mathcal{M}_{x,\text{do}(\tilde{x}_i)}。最后,M~\tilde{M} 得到反事实分布 pM~(x)p_{\tilde{\mathcal{M}}}(x)

  我们将这一反事实推理过程总结如下。


定义 2.3.3 : 反事实推论 [12]

反事实的查询可以通过三个步骤来推断:

  • 外推:推断 p(ϵx)p(\epsilon|x),即与观测值 x 相容的世界状态 (外部噪声)。
  • 操作:替换与干预对应的公式 (例如 do(x~i)\text{do}(\tilde{x}_i)),得到修改的 SCM 模型 M~=Mx:do(x~i)=(S~,p(ϵx))\tilde{\mathcal{M}}=\mathcal{M}_{x:\text{do}(\tilde{x}_i)}=(\tilde{S},p(\epsilon|x))
  • 预测:使用改进的模型计算pM~(x)p_{\tilde{\mathcal{M}}}(x)

2.3.3 独立的机制

  SCM 的一个很好的性质是独立机制的原理 (有时也称为自治或模块化),这类似于我们之前在因果贝叶斯网络的上下文中讨论的截断因式分解性质(定理2.2.1)。其基本前提是干预是局部的,对变量 xix_i 的干预只会改变 xix_i 的因果机制,而其他机制保持不变。这使我们能够将许多不同的干预分布编码在单个图表中 [13]。


定义 2.3.4 : 独立机制原则 [12,13]

  SCM 由自治模块 p(xipai)p(x_i|\mathbf{pa}_i) 组成

p(x)=p(x1,...,xD)=i=1Dp(xipai)(2.11)p(x)=p(x_1,...,x_D)=\prod_{i=1}^Dp(x_i|\mathbf{pa}_i) \tag{2.11}

  这意味着如果我们干预节点的子集 S{1,...,D}S\subseteq\{1,...,D\},那么对于所有的 i,我们都有

  • 如果 iSi\notin S,则 p(xipai)p(x_i|\mathcal{pa}_i) 保持不变
  • 如果 iSi\in S,则 p(xipai)=1p(x_i|\mathbf{pa}_i)=1 如果 xix_i 是由干预设置为 xix_i的值;否则 p(xipai)=0p(x_i|\mathbf{pa}_i)=0

2.4 因果表示学习

  表示学习的目标是检索总结高维数据 X 的低维表示 Z ,其中 DIM(Z)DIM(X)\mathbf{DIM}(Z)\ll\mathbf{DIM}(X)。由于感兴趣的特征 (例如,图像中的对象) 通常不在粒度输入数据 (例如像素) 中显式给出,因此所学习的表示然后有助于解决下游任务。然而,这些表示往往依赖于虚假的关联,并产生难以解释的纠缠维度 [21,22,23]。

  相反,因果表征学习 (CRL) 假设高水平因果变量上的 SCM 模型生成数据 X。表征 Z 对应于这些典型的潜在因果变量的实例。

  通过使用 SCM,我们可以估计对这些变量进行干预后的数据分布,或者推断特定数据点的反事实。

  机器学习研究的两个领域受益于这些:域泛化 (OOD) 的预测和可控生成。在前者中,我们认为新的和看不见的领域是由与我们的训练数据相同的 SCM 管理的介入性分布产生的。在后者中,我们认为样本是从干预性或反事实分布中产生的。

  不幸的是,如果没有广泛的监督或领域知识,学习完整的 SCM 是困难的。这项任务由三个部分组成,摘要见定义 2.4.1。


定义 2.4.1 因果表征学习 [11]

  在因果表示学习中,我们的目标是学习一组因果变量 Z,它们产生我们的数据 X 使得我们可以访问以下内容:

  • 因果特征学习 : 一个内射映射 g:ZX,s.t.X=g(Z)g:\mathcal{Z}\rightarrow\mathcal{X},s.t.X=g(Z)
  • 因果图发现 : 因果变量 Z 中的因果图 GZ\mathcal{G}_Z
  • 因果机制学习i=1,...,dim(Z)i=1,...,dim(Z) 的生成机制 pGZ(zipa(zi))p_{\mathcal{G}_Z}(z_i|\mathbf{pa}(z_i))

式中 pa(Zi){Zj}jiϵi\mathbf{pa}(Z_i)\subset\{Z_j\}_{j\ne i}\cup\epsilon_iϵi\epsilon_iZiZ_i 的外生因果亲本。


  因此在下面,我们回顾了部分但不是全部因果表示表征条件的现有方法。

2.5 混淆造成的混杂关系

图 2.3.由于 X 是观察到的混杂因素,T 和 Y 之间存在虚假关系。[13]

  回想一下 2.2.1.1 节中的医疗案例,其中我们有一个数据集,其中每个观察值 (xi,ti,yi)D(x_i,t_i,y_i)\in\mathcal{D} 表示医院患者的病历记录 xix_i、处方药治疗 tit_i 和健康结果 yiy_i

  图 2.3 可视化了关联性如何在观察值 p(yx,t)p(y|x,t) 和介入分布 p(yx,do(t))p(y|x,\text{do}(t)) 中流动。在图 2.3.a 中,我们看到 p(yx,t)p(y|x,t) 包含从 T 到 Y 的因果关联和虚假关联,而 p(yx,do(t))p(y|x,\text{do}(t)) 分离了从 T 到 Y 的因果关联,如图 2.3.b 所示。因果效应沿着定向路径流动,而虚假关联则沿着所有畅通的路径流动。要确定路径是否畅通,需要检查某些标准,我们在这里没有涉及这些标准。想要查看这些标准见 [12]。

  在这里,我们想要强调 T 和 Y 之间的虚假联系:想象一下,一名医生的政策是给康复几率低的重病患者提供昂贵的治疗,而给康复几率高的非常健康的患者提供廉价的治疗。Y 是标量,表示治疗后的健康结果;越高越好。假设廉价和昂贵的治疗同样有效,那么廉价和昂贵的治疗与健康结果分别是正相关和负相关的。这种相关性是错误的,因为它是由于医生的政策,基于患者治疗前的健康状况 X,而不是治疗对结果的实际因果影响。

  虚假关系什么时候会变得有问题?一个简单的答案是,每当混杂因素没有被观察到时 (也称为隐藏混杂)。这样做的原因是,在没有关于数据生成过程的进一步了解的情况下,复杂的机器学习模型可能会依赖于训练数据集中的虚假关联,而当模型投入生产时,这种关联可能不会再发生。这是一个特征,但不是一个错误:如果模型不利用虚假关联,如果我们不强制它来避免它们,那么它将是浪费的。机器学习角度的 2.5.1 说明了隐藏的混淆如何在计算机视觉环境中损害分类模型。我们在章节 2.4 探索解决这个问题的方法。


机器学习视角的 2.5.1: ImageNet中的虚假关系 [24,25]

图 2.4.在 ImageNet 中隐藏的混淆导致虚假关系 [24,25]。隐藏的混淆动物环境 E 导致鸟类的图像包括树和树枝。热图突出了图像 X 和鸟类标签 Y 之间的因果和虚假关联。

  在机器基准数据集中,也可能出现未观察到的混杂现象。考虑具有图像 X、标签 Y 和未观察变量E的图像分类场景,该未观察变量E指示感兴趣的分类对象的背景,例如动物环境。这使得鸟类的图片通常包括树木和树枝,如 Singla 和 Feizi [25] 在图2.4中所示。作者发现,在 ImageNet 数据集上训练的分类器依赖于混淆的关系来对对象进行分类,即不同背景环境中的同一对象更有可能被错误分类。


2.6 因果估计识别

  到目前为止,我们讨论了观察性分布和干预性分布之间的语义差异以及计算后者的原因。估计后者的实际可行时间是什么时候?因果估计的识别是指从因果估计 (例如 p(ydo(X))p(y|\text{do}(X)) ) 转移到等价的统计估计 (例如 p(yx)p(y|x) ) 的过程,然后我们可以从数据进行估计 [13]。

  如果可以从纯统计量来计算它的话,我们称因果估计为可识别的。如果它是不可识别的,那么无论我们拥有多少数据,我们都无法在我们的数据中分离出感兴趣的因果关联。、

  在没有隐藏混杂因素的情况下,只要我们知道因果关系图,因果估计和就是可识别的。例如,假设我们感兴趣的估计是在图 2.3.a 的场景中的平均治疗效果 p(ydo(T))p(y|\text{do}(T)),即在所有可能的患者特征 X 上平均的治疗的因果效果 t。在这里,满足后门标准,这使得 X 成为有效的调整集合 [12]。输出统计估计的数学过程也称为后门调整。

  一般而言,给定任何因果 DAG (可能包括未观察到的混杂因素),存在允许我们确定特定因果估计的可识别性的图形测试。除了后门标准外,还有前门标准。我们在这里不涉及这些标准,因为就本次调查而言,了解这些标准的存在就足够了。我们将引导有兴趣了解更多关于它们的读者见 [7,12,13,14]。

2.7 因果关系的效应

  除了干预性和反事实的质疑,因果推理的另一个常见问题是一个变量对另一个变量的因果影响。例如,在第五章中,给定一个输入向量 x 和一个带有参数 θ\theta 的黑盒机器学习模型 fθ()f_\theta(\cdot),我们将着眼于量化输入特征 xix_i 对模型预测 y^=fθ(x)\hat{y}=f_\theta(x) 的因果效应。另一个例子将出现在章节 7.7,其中我们测量多智能体系统中智能体的社会影响力,例如,一个智能体采取的行动如何影响另一个智能体的后续行动。

  Janzing 等人 [26] 假定因果影响的衡量标准应该满足一组自然、直观的要求。然后他们评估各种信息论方法是否满足这些要求。他们的结论是,KL-发散度是一个合适的衡量标准。


定义 2.7.1 : 由KL-发散度衡量的因果效应 [26]

  给定 SCM M\mathcal{M},从节点 k 到节点 l 的因果影响 Mkl\mathcal{M}_{k\rightarrow l}

Mkl=paiDKL[pM(xlpal)pM~(xlpalxk)]pM(pai)=DKL[pM(xlpal)pM~(xlpalxk)](2.12)\mathcal{M}_{k\rightarrow l}=\sum_{\mathbf{pa}_i}D_{KL}\left[p_{\mathcal{M}}(x_l|\mathbf{pa}_l)||p_{\tilde{\mathcal{M}}}(x_l|\mathbf{pa}_l\setminus x_k)\right]p_{\mathcal{M}}(\mathbf{pa}_i)\\ =D_{KL}\left[p_{\mathcal{M}}(x_l|\mathbf{pa}_l)||p_{\tilde{\mathcal{M}}}(x_l|\mathbf{pa}_l\setminus x_k)\right]\tag{2.12}

  其中 DKL()D_{KL}(\cdot||\cdot) 表示KL-散度,pM~p_{\tilde{\mathcal{M}}} 表示去掉从结点 k 到结点l的边后的介入分布。


3.因果监督学习

  监督学习的目标是通过在形式为 {(xi,yi)}i=1N\{(x_i,y_i)\}_{i=1}^N 的数据集上进行训练来学习条件分布 p(yx)p(y|x),其中 X 和 Y 分别表示协变量和标签。监督学习中最基本的原则之一是假设我们感兴趣的数据分布是独立同分布的 (I.I.D.) 。这一假设具有很强的含义。一方面,它允许我们将一组观测数据分成训练、验证和测试数据集,从而为执行模型训练、选择和评估开辟了一条简单的途径。另一方面,这意味着测试集,也许更重要的是,当模型部署到生产中时,看不见的输入遵循与训练集相同的分布,即 “过去预示着未来”。

图 3.1.图像分类器在数据集中容易产生虚假关系,能够正确地检测和分类处于常见环境 (如阿尔卑斯山牧场) 中的奶牛(A),而未检测到处于非常见环境 (海滩、海浪和船只) 中的奶牛(B)。在这种情况下,我们可以将(B)看作来自干预分布的样本,其中背景已经被干预。前五大标签来源于 ClarifAI.com。

  毫不奇怪,这一假设的有效性受到了挑战 [1,6];它被广泛地称为“机器学习中的大谎言” [27]。每当我们在现实世界中部署我们的模型时,我们几乎无法控制分布;例如,变量可能会在频率上发生变化 (见图3.1) ,可能会出现新的特征组合,而模型尚未在其上进行训练。简单地说,就是独立同分布假设被打破时,依赖它的模型表现很差 [28]。

  让我们考虑一下图3.1中的例子。在训练数据集中,大多数奶牛是在高山牧场环境中观察到的。假设学习算法观察到草背景和奶牛分类标签之间的虚假关联。在不对模型进行进一步约束的情况下,该算法可以利用草地特征进行预测。当算法部署在测试数据集中时,出现了问题,在测试数据集中,发现没有草作为背景的奶牛。然后,该算法错误地对奶牛进行分类,因为没有观察到草特征。

  这个例子说明独立同分布假设是如何在测试分布与训练分布不同时就会失效。取而代之的是,我们可以假设我们的数据是由干预分布产生的,由 SCM 管理。对于在一组环境 E\mathcal{E}{(xie,yie)i=1N}eE\left\{(x_i^e,y_i^e)_{i=1}^N\right\}_{e\in\mathcal{E}} 上生成的给定数据集,我们将每个环境 eEe\in\mathcal{E} 视为从单独的干预分布中采样。参考图3.1中的例子,我们认为测试数据集是通过干预背景特征的潜在变量而生成的。

  我们如何以原则性的方式估计 p(yx)p(y|x)?在不变特征学习中,我们学习 Y 的因果亲本 pa(Y)\mathbf{pa}(Y) 的内容表示 C,使得在所有环境中都有 Yp(yc)Y\sim p(y|c)。在不变机制学习中,我们识别了一组映射 F\mathcal{F},这些映射 F\mathcal{F} 允许我们在一系列干预分布中从 X 预测 Y。

标记

XX 观察到的协变量

DD dim(X)\dim(X)

YY 预测目标 (标签)

SS 用于预测的虚假 (或风格) 变量

CC 预测的内容变量 ( pa(Y)\mathbf{pa}(Y) )

ϵ\epsilon 独立的外源性因果亲本

EE 环境指数

E\mathcal{E} 一组环境

UU 不可见的混杂因子

AA 受保护的属性

3.1 不变特征的学习

  不变特征学习 (IFL) 是在一系列环境 E\mathcal{E} 中识别数据 X 中对 Y 具有预测性的特征的任务。从因果的角度来看,因为亲本 pa(Y)\text{pa}(Y) 总是在任何干预分布下预测 Y,除非 Y 本身已经被干预。这是因为独立机构原理 [7] (定义 2.3.4)。

可用来源 方法 核心思想 参引
内容不变量转化 数据去混杂 进行数据增强,并对增强后的数据进行训练 章节3.1.1.1
中间量去混杂 从预训练模型中获取去混杂表示 章节3.1.1.3
训练中模型去混杂 当训练模型时,强制执行模型不变性 章节3.1.1.2
训练后模型去混杂 在零预测中识别并去除对预测器的混杂效应 章节3.1.1.4
多环境 不变风险最小化 通过检查跨域预测来确定内容功能 章节3.1.2.1
因果匹配 跨域匹配内容特征 章节3.1.2.2
SCD作为潜在变量 通过跨域学习内容变量实现无约束优化 章节3.1.2.3
成分识别 使用数据中的对象和属性标注来提高泛化性能 章节3.1.2.4
**表 3.1**.不变特征学习方法总览

图 3.2.风格和内容分解的一般设置 : S 和 C 都生成数据 X,但只有 C 生成 Y。假设映射 p(yc)p(y|c) 在由对 S 的干预产生的环境中是不变的。我们经常观察到 S 和 C 之间的虚假关联,这是由未观察到的混杂 U 的存在解释的。

  IFL 方法通常简化控制 SCM,以便专注于 Y 的因果亲本的识别。我们可以将复杂的 SCM 抽象为简单的 SCM ,方法是将 Y 的因果亲本收集到一个变量中,而将其他变量收集到另一个变量中。图 3.2 中的风格和内容分解 (SCD) 就是一个这样的例子。


定义 3.1.1 : 风格和内容分解

  风格和内容分解 (SCD) 是 X 和 Y 的数据生成过程 (DGP) 的因果图。我们称 S 为风格变量,C 为内容变量,这两个变量都被认为是潜在的。内容变量将 Y,pa(Y)\mathbf{pa}(Y) 的所有原因亲本变量组合在一起,而样式变量将其余变量组合在一起。X 和 Y 的生成遵循以下分布

Xp(xs,c),  Yp(yc)(3.1)X\sim p(x|s,c),\ \ Y\sim p(y|c) \tag{3.1}

  最后,假设定义 3.1.1成立,我们将不变特征学习定义如下 :


定义 3.1.2 : 不变特征学习

  不变特征学习 (IFL) 旨在识别导致 X 和 Y 两者的内容特征 C 和映射 p(yc)p(y|c),使得

C=Φ(X)  s.t.  Yp(yc)(3.2)C=\Phi(X)\ \ \text{s.t.}\ \ Y\sim p(y|c) \tag{3.2}

3.1.1 保持内容的变化

  在本节中,我们回顾了通过将内容不变变换应用于训练数据集、中间表征或预测来提取内容特征的方法。

3.1.1.1 拆分数据

  数据增强 (DA) 在涉及高维数据集的现代机器学习流中是普遍使用的。我们的想法是确定一组转换,这些转换可以应用于我们数据集中的任何样本,但不会改变其语义 (即其内容特征)。它需要从业者提供有关允许的转换类型的领域知识,以避免稀释内容信息。其动机是在模型中强制使用不变性,从而提高泛化能力。

  在这一部分中 [30,31,32],我们回顾了通过因果视角激励数据增强的工作。这种视角将数据扩充视为实例的反事实,其中我们干预风格特征,类似于风格和内容分解 (图3.2)。


因果理论视角的 3.1.1: 数据增强

  数据增强可以被视为在图 3.2 的风格和内容分解中对风格变量的一组干预,这打破了风格变量和 Y 之间的虚假关联。


  本部分中的增强部分是手工制作的。在第四章的后面,我们将回顾如何使用因果生成模型生成反事实数据扩充。

  Ilse等人 [31] 解释 DA 削弱了观察域和任务标签之间的虚假关联。为了证明这一点,他们引入了干预增强等价性的概念,形式化了数据增强和对域引起的特征的干预之间的关系。如果干预-增强等方差成立,人们可以使用数据增强来模拟新的环境,只使用观测数据。这消除了由隐藏的混杂因子 U 引起的虚假关联 EUYE\leftarrow U\rightarrow Y,该混杂因子 U 允许 E 通过后门影响 Y。基于这种洞察力,他们得出了一种算法,该算法能够从一系列转换中选择数据增强技术,从而实现更好的域泛化。

  Kaushik等人 [33] 提出了一种通过在循环过程中人工进行数据增强的方法,在该方法中,给定一些文档及其 (初始) 标签,人类必须对文本进行足够的编辑以翻转标签,从而生成反事实样本。重要的是,不足以翻转适用标签的编辑是被禁止的。因此,它们产生负样本和正样本,允许对比学习作为表征学习的一种方法。

  Teney等人 [34] 通过纳入具有对比标签但语义信息相似 (即相似的内容变量) 的样本,即反事实样本,进一步发展了这一想法,作为改进模型 f()f(\cdot) 的训练的一种手段 (进一步评论见第4章)。他们提出了一种新的正则化项,用于强制局部梯度 xf(xi)\nabla_xf(x_i) 和基准真实梯度之间的对齐。在两个对比样本及其对应的标签之间,基准真实梯度模拟了输入空间中切换模型输出所必需的平移。

  其中,对于两个满足 yiyjy_i\ne y_j 反事实样本 {(xi,yi),(xj,yj)}\left\{(x_i,y_i),(x_j,y_j)\right\} ,定义 gi=xf(xi)g_i=\nabla_xf(x_i)g^i=xjxi\hat{g}_i=x_j-x_i。然后,他们提出的正则化项加强 g^i\hat{g}_igig_i 之间的相似性。该方法可应用于任何从业者有机会获得反事实样本。作者演示了视觉和语言任务 (如视觉问题回答) 泛化的改善。

**图 3.3.**Mao等人 [35] 使用 GANSpace [36] 生成各种数据增强:此处显示了一些数据增强。数据增强被解释为对我们的预测器 p(yx)p(y|x) 必须不变的样式特征的干预

  Mao 等人 [35] 使用数据增强来模拟因果干预,推导出最优干预策略,并提出了结合 GANs生成的数据扩充的损失函数 GenInt。他们建议根据 GANSpace 中提出的方法,经验性地识别一组不干扰对象标签的数据扩充 [36]。它们直接干预原始数据中的潜在因素,如背景和视角,如图3.3所示。大量实验表明,与竞争对手的数据增强策略相比,在 ImageNet-C 使用 AlexNet 架构 [37] 具有更高的域泛化 (OOD) 分类准确率。

3.1.1.2 解构中间表征

图 3.4.因果可传递性从一组表征中识别出因果亲本 [38] : Mao 等人 [38] 通过考虑此处所示的因果图提出一种更好地利用预训练的表示 R 的算法 (章节 3.1.1.2)。S 和 C 都是 X 的因果亲本。R是使用诸如预训练算法的特征学习器识别的一组表示,其至少携带 C 中的所有信息。S 和 Y 被隐藏变量 UXYU_{XY} 混淆。

  在这种情况下,我们可以访问 X 的样本和预训练好的表征。R.Mao 等人 [38] 提出一种方法(参见算法1),该方法改进通过自监督学习或其他方式学习的预训练的表示如何被用于分类模型。他们假设数据是由图 3.4 中所示的因果结构生成的,其中 Xp(xc,s)X\sim p(x|c,s) 由风格和内容特征生成,R 是由预训练的模型给出的 X 的表示。重要的是,他们假设在S 和 Y之间存在未观察到的混淆 US,YU_{S,Y},这自然解释了在任何训练数据集中 X 和 Y 之间虚假关联的原因。


算法 1.因果传递性模型的训练

Input : {(X,Y)}\{(\mathbf{X},Y)\} 上的训练集 D

Phase 1 : 根据 VAE 的表示或预训练的模型计算 p^(rx)\hat{p}(r|x)

Phase 2 : 样本 xi,ri,yiD:=(X,R,Y)x_i,r_i,y_i\sim\mathcal{D}':=(\mathbf{X},\mathbf{R},Y)

for i=1,...,Ki=1,...,K do

  从 xix_i 的相同目录中随机选取 xix_i'

  通过最小化 Lclass\mathcal{L}_{class} 训练 p^(yx,r)\hat{p}(y|x',r)

end for

Output : 模型 p^(rx)\hat{p}(r|x)p^(yx,r)\hat{p}(y|x,r)


  由于 S 和 Y 在假设的因果图 (图 3.4) 中被 US,YU_{S,Y}SCS\rightarrow C 混杂,p(yc)p(y|c) 也被混杂。然而,p(yc,do(S))p(y|c,\text{do}(S))p(ydo(C),s)p(y|\text{do}(C),s) 都是未混杂的 (即 p(ydo(X))p(y|\text{do}(X)) 是未混杂的)。因此,Mao 等人 [38] 表明 p(yc,do(S))p(y|c,\text{do}(S)) 是一个不变预测器。为了模拟给定样本 x 的这种干预,他们通过 p(rx)p(r|x) 和从数据集中随机采样的一批损坏图像获得表示。图像的破坏是为了破坏高层信息,从而模拟对 S 特征的干预。

  Mao 等人 [38] 提出一种训练算法通过最小化分类损失 L 类来学习 p(yx,r)p(y|x,r) (章节 3.1.1.2),以及估计因果量 p(ydo(X))p(y|\text{do}(X)) 的单独评估算法。分类算法的输出为 y^=argmaxyp(ydo(x))\hat{y}=\arg\max_yp(y|\text{do}(x))

  在实验中,作者利用预训练的方法如 SimCLR [39] 和 SWAV [40] 来生成 R。然后,他们在 OOD 的基准上 (如 ImageNet9 [41]) 与 ERM 损失进行比较,展现出明显的改进。他们在 ColoredMNIST [27] 上取得了最佳的结果,在那里他们比 IRM (章节.3.1.2.1)、RSC [42] 和 GenInt [35] (章节.3.1.1.1)。

3.1.1.3 训练中解构模型

反事实不变性 : 反事实不变性是一个框架,从实践者规范来衡量其预测对X上的某些扰动是不变的 [43]。为了定义不变性,我们指定了一个附加变量 A 捕获不应影响预测的信息。然而,A可能会对协变量 X 产生因果影响。

  作为一个令人激动的例子,考虑图 3.1 中的图像数据集。我们发现,当背景从山脉变为海滩时,我们的分类器似乎无法识别奶牛。在这种情况下,我们将背景标识为 A,因为改变我们的背景不应该影响模型预测,但它确实对协变量 X 有因果影响。

  让 Xa(ϵ)X_a(\epsilon) 表示如果将 A 设置为 a 的反事实 X,其他的都不变,其中 ϵ\epsilon 捕捉背景因素的信息 (如噪声)。

图 3.5.反事实不变因果图 [43] : 反事实不变框架容纳了上述因果模型 (章节.3.1.1.3)。在 XYX\rightarrow YXYX\leftarrow Y 中,A 都不是 Y 的因果亲本,我们的目标是消除 A 可能对预测器 p(YX)p(Y | X) 的任何虚假影响。因此,我们的目标是仅使用 X1X_1 特征来预测 Y。


定义 3.1.3 : 反事实不变性 [43]

  预测器 f 对 A 是反事实不变的如果几乎在所有地方对于所有 a,aAa,a'\in\mathcal{A} 和所有可能的外生因素都有 f(Xa(ϵ))=f(Xa(ϵ))f(\mathbf{X}_a(\epsilon))=f(\mathbf{X}_{a'}(\epsilon))


  该框架要求实践者识别 i) 因果方向 XYX\rightarrow YXYX\leftarrow Y ii) 敏感属性 A 和 iii) A 和 Y 之间的关联是由于数据收集中的混杂还是选择偏差。如图 3.5 所示为图形说明。有了这些信息,实践者可以在实施反事实不变性签名的两个正则化之一中适当地选择一个 (这是一个必要条件,但不是充分条件)。在 Veitch 等人 [43] 的实现中,该方法仅限于二进制 A。但从概念上讲,这个想法可以外推到更高的维度,并以 A 为适当的条件。

不对称学习 : 类似于反事实不变性框架,Mouli 和 Ribeiro [44] 提出了非对称学习,用于学习分类器,这些分类器对某些分布平移设置是反事实不变的。实践者指定了数据生成过程中的一组等价关系,模型应该与之保持不变。Mouli 和 Ribeiro [44] 为分布外泛化引入了一种新的理论范式,它对数据生成过程进行建模,并指定了我们可以泛化到的测试分布的类型。非对称学习以 X、Y 和所提供的等价关系集合为输入。

  作为一个令人兴奋的例子,考虑包含在 [44] 中的钟摆实验。两个全局属性 ρ1(),ρ2()\rho_1(\cdot),\rho_2(\cdot) 对于任何摆动 x,其中之一是系统的初始势能 ρ1()\rho_1(\cdot)。然后,他们定义了一个等价关系 1\sim_1,使得对于具有相同初始势能的任意两个样本 x(1),x(2),ρ1(x(1))=ρ1(x(2))x^{(1)},x^{(2)},\rho_1(x^{(1)})=\rho_1(x^{(2)}),我们称 x(1)1x(2)x^{(1)}\sim_1 x^{(2)}

  每个等价关系 i\sim_{i} 归纳出一组保持等价类成员资格的对象变换 T1\mathcal{T}_1。具体地说,对于任意 x[x]x\in[x] 和任意 tTit\in\mathcal{T}_i,我们有 tx[x]it\circ x\in[x]_i。这些变换被视为定义如何生成数据,使得 Xtr:=TtrX\mathbf{X}^{\text{tr}}:=T^{\text{tr}}\circ\mathbf{X}^{\dagger}Xte:=TteX\mathbf{X}^{\text{te}}:=T^{\text{te}}\circ\mathbf{X}^{\dagger},其中 P(Ttr)P(Tte)P(T^{\text{tr}})\ne P(T^{\text{te}})。每个 T 被视为与给定的等价关系相关的转换的串联,T=t1...trT=t_1\circ...\circ t_r吗,r 任意。TtrT^{\text{tr}}TteT^{\text{te}} 之间的差异可以在一些转换中发现,例如我们可能有 Ttr=t1ttrt3T^{\text{tr}}=t_1\circ t_{\text{tr}}\circ t_3Tte=t1ttet3T^{\text{te}}=t_1\circ t_{\text{te}}\circ t_3

  域泛化 (OOD) 的任务是假设哪些等价关系诱导的转换在测试数据和训练数据之间保持不变,并在我们的预测模型学习中加强不变性。训练数据需要在全局属性中包含足够的变化,以便学习过程识别任何不变量。

使用SCD进行自我监督学习 : 虽然前面的方法旨在改善对一个任务的预测,但接下来的方法将探索如何利用 IFL 的原理进行自监督学习 (SSL),其中学习表征是为了辅助一系列下游任务。这一策略为利用大量未标记数据铺平了道路,在标记数据可用性通常有限的环境中,例如用于大规模语言建模 [45]、医学图像分析 [46] 或分子性质预测 [47]。目前流行的方法主要分为重建 [48] 和区别 [39,49,50]。在区别机制中,我们的目标是在相似对象的表示之间强制接近。

  对比学习是一种判别机制中的方法,它利用正采样和负采样来加强相似表示的接近和不同表示之间更大的距离。许多对比学习方法依赖于某种形式的数据增强来生成正样本和负样本,以及观察来自不同环境但具有相似标签的数据 (例如多视图对比学习 [51])。

  Mitrovic 等人 [30] 认为,对比的预训练方法隐含了图 3.2 所示的 SCD 因果结构。他们认为,对比学习可以教编码器从因果关系中分离 C 和 S。在这篇文章中,他们考察了我们可以进行数据增强的环境,作为提供对比损失的正样本和负样本的手段,并提出了客观 ReLIC。

  传统的数据增强可以被解释为对风格变量 S 的干预 (见因果理论的视角 3.1.1)。Mitrovic等人 [30] 将自监督学习的任务框架为代理任务预测,其中他们提出了代理标签 yty_t 的列表 Y\mathcal{Y}。为了明确地增强代理目标预测在数据增强下的不变性,他们形式化了一个准则并建议在训练期间通过向目标添加 KL-散度项来实施该准则。运用独立机制原则 (定义.2.3.4),他们的结论是 : 在 SCD 下,对 S 进行干预不会改变条件分布 p(ytc)p(y_t|c),即操纵 S 的值不会影响该条件分布。因此,p(ytc)p(y_t|c) 在风格 S 的变化下是不变的,即对于所有 s(1),s(2)Ss^{(1)},s^{(2)}\in\mathcal{S}

p(ytc,do(s(1)))=p(ytc,do(s(2)))(3.3)p\left(y_t|c,\text{do}(s^{(1)})\right)=p\left(y_t|c,\text{do}(s^{(2)})\right) \tag{3.3}

  作为后续工作,Tomasev 等人 [52] 提出 ReLICv2,它与 ReLIC 的不同之处在于选择了适当的正负点集,以及所产生的数据视图如何在目标函数中组合。

3.1.1.4 解构训练后的预测

图 3.6.反事实正则化消除不可观测的混杂 : 这些图表解释了反事实正则化如何消除未观察到的混杂对模型预测的影响,如章节.3.1.1.4 所示。对此进行干预,X 消除了 U 对它的影响,并推导出了因果效应 XY\mathbf{X}\rightarrow Y

  各种方法 [53,54,55] 建议在模型训练结束后,通过反事实正则化从预测中消除未观察到的混杂因素 U 的影响。这涉及到估计 U 对预测 Y~\tilde{Y} 的混杂影响,然后消除它,从而消除混杂的基础。对于样本 x 上的预测,生成 x‘,使得它不携带 x 中的任何因果信息。然后,使用差值来建立预测

Y~cuasal=Y~xY~x(3.4)\tilde{Y}_{\text{cuasal}}=\tilde{Y}_x-\tilde{Y}_{x'} \tag{3.4}

  Chen等人 [53] 通过将X设置为零向量 (或随机噪声),识别 Y^\hat{Y} 的结果预测,并实现公式,从而对 X 进行干预,并实施公式 (3.4)。作者建议将其用于轨迹预测中的区域泛化。Rao 等人 [55] 提出了改进视觉分类的注意机制,并且Niu等人 [54] 建议消除视觉问答中的语言偏差。

3.1.2 多个环境

  通常可以获得从多个环境 E\mathcal{E} 收集的形式为 {(xie,yie)i=1N}eE\left\{(x_i^e,y_i^e)_{i=1}^N\right\}_{e\in\mathcal{E}} 的数据集。例如,数据可以是不同医院之间在不同协议下获得的记录,或者是在不同季节收集的房屋图像。作为一个更具体的例子,Wilds 基准测试 [56] 提供了来自真实世界场景的多种环境数据的精选集合。

  就像许多机器学习算法在 I.I.D 上运行一样。数据方面,从业者可能会将从多个环境收集的数据混为一谈。Arjovsky等人 [27] 表示我们在混洗时会丢失有关数据生成过程的信息,并且在这样做之后可能会在数据中出现虚假关联。在混洗数据后,我们将失去跨环境和环境内发生的关联之间的任何区别。例如,在图 3.1 中观察到草特征和奶牛标签之间的虚假关联,但如果一个环境是高山牧场,另一个环境是海滩,这种关联在不同环境中不成立。


因果理论视角的 3.1.2: 从多个环境收集的数据

  对于形式为 {Xe,Ye}eE\{\mathbf{X}^e,Y^e\}_{e\in\mathcal{E}} 的数据,其中 E\mathcal{E} 是一组环境,通常合理的做法是将每个环境视为由对 SCD 中的风格变量的一组干预生成的 (图3.2)。当然,当底层的 SCM 因环境不同而不同时,这种观点就会失效。


  我们如何才能有效地利用这些信息?从因果关系的角度来看,我们可以将每个环境视为由对 SCD 中的风格变量的一组干预产生的 (图3.2)。每个环境都编码了一组特定的干预措施,而更多种类的环境可以揭示更多的风格变量。

  本节中的方法建议识别在所有环境中具有预测性的特征,并学习从不变特征到输出变量 Y 的不变映射。我们将不变特征解释为 SCD 中的内容特征,或 Y 的因果亲本。

3.1.2.1 不变风险最小化

  Peters等人 [57] 介绍了不变因果预测 (ICP),这是一种寻找因果特征集的算法,因果特征集是目标变量的因果预测因素的最小特征集。它们利用了独立机构原理 (定义.2.3.4)。

  不变风险最小化 (IRM) [27] 是 ICP 的扩展,它不是选择变量,而是学习没有虚假关联的表示。它假设存在一个特征映射 Φ\Phi,使得将这些特征映射到输出的最优线性分类器 w^:Φ(X)Y\hat{w}:\Phi(\mathbf{X})\rightarrow\mathcal{Y} 对于每个环境 eEe\in\mathcal{E} 是相同的。该特征映射和分类器组成以形成预测函数 f(x)=wΦ(x)f(x)=w\circ\Phi(x)。最优性被定义为在所有环境下最小化特定于环境的经验风险 Re:=EXe,Ye[l(f(Xe),Ye)]\mathcal{R}^e:=\mathbb{E}_{\mathbf{X}^e,Y^e}\left[\mathcal{l}(f(\mathbf{X}^e),Y^e)\right]

  作者认为这样的函数将只使用不变特征,因为不变特征将与不同环境之间的标签具有不同的关联。我们将其解释为图 3.2 中风格和内容分解的一个实例,其中 Φ(X)\Phi(X) 表示我们的内容变量 C 和 S 在各种环境中观察到的可变性。


定义 3.1.4 : 不变风险最小化 [27]

  为了学习 Φ(X)\Phi(\mathbf{X}) 和由 β\beta 参数化的不变分类器函数 wβ:Φ(X)Yw_\beta:\Phi(\mathbf{X})\rightarrow\mathcal{Y},IRM 的目标是以下约束优化问题:

minΦ,βeERe(Φ,β^)  s.t.  β^argminβRe(Φ,β)  eE(3.5)\min_{\Phi,\beta}\sum_{e\in\mathcal{E}}\mathcal{R}^e(\Phi,\hat{\beta})\ \ \text{s.t.}\ \ \hat{\beta}\in\underset{\beta}{\arg\min}\mathcal{R}^e(\Phi,\beta)\ \ \forall e\in\mathcal{E} \tag{3.5}

  在实际应用中,这种双层规划具有很强的非凸性,很难求解。为了找到近似解,作者考虑拉格朗日形式,其中关于约束的次最优性表示为每个内部优化问题的梯度的平方范数:

minΦ,βeE[Re(Φ,β^)+λβ^Re(Φ,β^)22](3.6)\min_{\Phi,\beta}\sum_{e\in\mathcal{E}}\left[\mathcal{R}^e(\Phi,\hat{\beta})+\lambda\lVert\nabla_{\hat{\beta}}\mathcal{R}^e(\Phi,\hat{\beta})\rVert_2^2\right] \tag{3.6}

  假设内优化问题是凸的,则实现可行性等价于惩罚项等于 0。因此,公式 (3.5) 和公式 (3.6) 在我们设置 λ=\lambda=\infty 时等价。

  不幸的是, Rosenfeld 等人 [58] 和 Kamath 等人 [59] 表明 IRM 的表现通常不比标准的经验风险最小化 (ERM) 好。当潜在的因果关系是线性的,并且在训练环境中观察到足够的异质性时,IRM 达到最好的结果,从而消除了足够的自由度 [58]。然而,如果这两个条件中的任何一个都不满足,那么 IRM 的结果可能比 ERM 更差。Ahuja 等人 [60] 假设 IRM 的目标是在多个环境中寻找集合博弈的纳什均衡。Ahuja 等人 [61] 指出,虽然类似 IRM 的方法可以证明在线性回归任务中推广了 OOD,但在线性分类任务中不一定如此,因为线性分类任务需要更强的限制,其形式是对分布偏移的支持重叠假设。他们确定,用信息瓶颈 [62] 约束来增强不变性原理可以解决其中的一些问题。

  类似于 IRM,Krueger 等人 [63] 提出了风险外推 (REX),这是一种领域泛化方法,它也使用了比 ICP 更弱的不变性形式。然而,虽然 IRM 专门针对不变预测,而 REX 则寻求对任何形式的分布偏移的稳健性。作者证明了 REX 的变体可以恢复目标的因果机制,同时也提供了对协变量变化的一些稳健性。Wang 和 Jordan [23] 强调分类表示满足必要性和充分性概率 (PNS) 条件。这导致了一个目标函数,它改进了黑盒算法的泛化,他们称之为因果-代表。

3.1.2.2 因果匹配

**图 3.7**.**修改后的风格和内容分解** : 当 S 和 C 相关时,我们想用因果图来描述这种关联的性质。因果匹配 [64] 引入了环境指标变量 E 和对象变量 O,以扩展因果图 (见章节 3.1.2.2)。该算法旨在从内容特征 C 中识别对象。

  超越 IRM 的进展是更详细地分析 S 和 C 如何跨环境交互。虽然 IRM 假设 S 和 C 在某些环境中存在虚假的关联,但 Mahajan 等人认为 [64] 考虑一个数据生成过程 (DGP),其中 S 和 C 被对象变量 O 混淆,并且我们的环境 E 仅是 S 的因果亲本。与 IRM 不同的是,S 和 C 之间的相关性是用图 3.7 的因果图明确建模的。

  Mahajan 等人 [64] 的贡献是双抽的。首先,在已知匹配集合 Ω\Omega 中编码的数据中对象位置的先验知识的情况下,他们提出了一个正则化目标,该目标学习表示 Φ(X):XC\Phi(\mathbf{X}):\mathcal{X}\rightarrow\mathcal{C} 使用 Ω\Omega,以及一个分类器 wβ:ΦYw_{\beta}:\Phi\rightarrow\mathcal{Y}。其次,在没有对象位置先验知识的情况下,作者提出了一种识别对象位置的匹配算法。然后,将估计的匹配集 Ω~\tilde{\Omega} 部署在分类器目标中。

  具体来说,他们提出 : 对于在不同环境中产生的具有相同标签的任意两个数据点 ee,(x(e),y),(x(e),y)e\ne e',(x^{(e)},y),(x^{(e')},y),它们的潜在内容特征 C 应该是相似的。这激发了他们的匹配算法 matchDG i)构建匹配集和 ii) 学习表征 Φ(X)\Phi(\mathbf{X})

3.1.2.3 作为潜在变量的风格和内容

  与学习风格和内容的表示形式相反,有一组方法将风格和内容作为潜在变量建模,并学习环境 eEe\in\mathcal{E} 中的 {pe(x,y)}eE\left\{p^e(x,y)\right\}_{e\in\mathcal{E}}。这使我们能够在 SCD 中产生概率风格和内容变量 C 和 S,将优化目标从有约束的变量改变为无约束的变量。

  这些方法通过一个学习到的分布 pe(s,c  x)p^e(s,c\ |\ x) 从 X 中采样 C 和 S,该分布随环境 eEe\in\mathcal{E} 而变化,然后他们通过从密度 Yp(yc)Y\sim p(y|c) 中采样做出预测,该密度对环境变化是不受独立机制原理 (定义 2.3.4) 影响的。

  Sun 等人 [65] 提出了 LaCIM,利用来自多个环境的训练数据,并假设数据是根据与章节 3.1.2.2中看到的 MatchDG 方法相似的结构 (图3.7) 生成的。然而,LaCIM 解决的是一个无约束优化目标。在每个环境中学习了一个先验的 pθe(c,s)p_{\theta}^e(c,s) 以捕捉 C 和 S 之间的不同依赖关系。

  相比之下,Liu 等人 [66] 只从单一环境中利用训练数据,但假设 C 是由独立机制原理 (定义.2.3.4) 识别的。他们的方法被称为因果语义生成模型 (CSG),与 LaCIM 的操作类似。

  Lu等人 [67] 提出了与 LaCIM 执行相同的任务,但采用三个阶段的训练过程,而不是 LaCIM 和 CSG 的端到端方法。他们的方法被称为 iCaRL。在阶段1中,他们学习 X 的潜在生成变量集 Z。在阶段2中,他们使用 PC 算法 [68] 和条件独立测试来隔离 Y 的因果双亲 CZ\mathbf{C}\subset\mathbf{Z}。在阶段3,分类器学习 p(yc)p(y|c)。在 ColoredMNIST [27] OOD 分类基准上,iCaRL 要优于 ERM 和 IRM。

3.1.2.4 成分识别

图 3.8.属性的组合导致鲁棒性的生成 [69] : 虽然对象和属性特征本身是不可靠的特征,但这些特征的组合被认为是可靠的 (章节 3.1.2.4)。因此,他们了解到 p(xa,o)p(x|a,o) 在介入分布中是不变的。所需数据集示例如图 3.8.a 所示,数据集来自 AO-CLEVr 数据集 [70]。

  成分识别是学习识别已知成分的新组合的问题。注意,这个方法训练的是带有属性 A 和对象 O 标签的数据,而不是章节 3.1.2 中前面的方法所利用的附加环境标签。Atzmon 等人 [69] 认为,深度鉴别模型在成分识别方面失败的原因有两个 : (i) 分布偏移和 (ii) 表示的纠缠。因此,他们提出了一种基于因果图的表示方法,将图像建模为属性 A 和对象 O 造成的,如图 3.8 所示。与物体或属性本身不同,Atzmon 等人 [69] 认为,物体和属性的组合在训练集和测试集上对图像产生相同的分布。因此他们建议考虑通过对属性和对象标签的干预产生的不可见的组合图像; “零快照推断”指的是找出是哪个干预导致了给定的图像。他们学习分布 p(xa,o)p(x|a,o),该分布在不同环境中被认为比 p(xa)p(x | a)p(xo)p(x | o) 更稳定。可以使用模型学习到的鲁棒表示学习分类器。

3.2 不变机制学习

  在前一节中,我们利用不变特征来从模型中移除虚假关联。现在我们来看一些不同的方法,它们的目标与不变特征学习完全不同。

方法核心思想参引
独立网络网络可以在新的领域结合并解释独立的干预章节 3.2.1
域的映射从目标域到源域的映射,每个域负责独立的干预章节 3.2.2

表 3.2.IML方法概述

  试想一下,一个人可能会听到别人小声或大声说话,但却能分辨出说话的内容和声音。说话的内容可能对应于数据的一个特征,而声音的大小则对应于将信息映射给观察者的机制。这种观察是通过独立机制原理 (定义 2.3.4) 来解释的。

图 3.9.不变机制学习的图形化动机 : 我们认为 XYX\rightarrow Y 被一组独立的混杂因子 U 所混杂,因此对任何 UiU_i 的干预都会产生干涉分布。11

  不变机制学习旨在找到一套代表不同介入分布的数据生成机制。对于 X 和 Y 中独立的潜在混杂因素 U,我们认为每个干预因素分布都是由混杂因素子集上的干预因素产生的 (见图 3.9)。然后,对于学习机制的集合 F\mathcal{F},为了从 x 预测 Y,我们使用映射 F\mathcal{F} 的一个子集。我们强调,没有对混淆器 U 进行特征学习。


定义 3.2.1 : 不变机制学习

IML 的任务是识别一组映射 F\mathcal{F},其捕获由独立的未观察混杂 U={U1,...,UD}\mathbf{U}=\{U_1,...,U_D\} 生成的介入性分布:

F={fi:XYY=fi(X)YP(YX,do(ui))}i=1D(3.7)\mathcal{F}=\left\{f_i:\mathcal{X}\rightarrow\mathcal{Y}|Y=f_i(X)\Leftrightarrow Y\sim P(Y|\mathbf{X},\text{do}(u_i))\right\}_{i=1}^D \tag{3.7}

3.2.1 作为独立网络的独立不变机制

  Parascandolo 等人 [71] 提出一种方法,该方法旨在识别一组相互竞争的数据转换机制,经过训练,专门从样本中恢复不同的潜在结构。

  Goyal 等人 [72] 通过将独立机制应用于顺序数据,特别是视频和文本,在先前工作的基础上发展。他们提出的体系结构是循环独立机制 (RIMS)。在每个时间步长,软关注层从N个竞争机制中选择前 k 个以用于处理输入,并且第二层关注层允许在每个时间步长的机制之间进行稀疏通信,以帮助上下文理解。

  与其他顺序体系结构如 LSTM (Hochreiter 和 Schmidhuber [73]) 和transformers (Vaswani 等人 [74]) 相比,其优点是减少了输入中长时间休眠的干扰对信息的退化,并改进了对多个目标的轨迹预测。

  Madan 等人 [75] 使用 Goyal 等人 [72] 提出的 RIMs,用于一种快速适应模块参数、缓慢适应注意机制参数的元学习算法。他们的快速和缓慢的学习动态表明,在元学习基准方面优于 LSTM 和 RIMs。

**图 3.10**.**域之间的不变映射** : Yue 等人 [76] 建议学习由上述因果图 (SEC) 生成的不同环境之间的一组映射 (章节 3.2.2),其中 U 混淆了因果效应 $X\rightarrow Y$。因此,他们建议学习源域和测试域之间的一组映射,每个映射都解释了对 C 的独立部分的独立干预。

3.2.2 作为域间映射的不变机制

  Yue 等人 [76] 建议将无监督域适应分类视为推断一组分离的因果机制的问题,这些因果机制生成从源域到测试域的映射。

  他们使用图 3.10 所示的因果图对数据生成过程 (DGP) 进行建模。E 表示环境指数,U 为 X 和 Y 上的一组未观测域感知的混淆变量。他们利用可迁移性理论的以下结果 [77]:

p(ydo(x),e)=up(yx,u)p(ue)(3.8)p(y|\text{do}(x),e)=\sum_up(y|x,u)p(u|e) \tag{3.8}

  这一结果表明,当我们能够接触到混杂因子 U 时,我们可以在单独的域 E 中识别干预 do(X)\text{do}(X) 对 Y 的影响。假设U是不被观察到的,作者建议学习一组代理变量 U^\hat{U},并确定域之间的解纠缠的反事实映射,每个域对应于 UiU_i 上的隔离干预,保持所有其他 UjiU_{j\ne i} 不变。它们以无监督的方式学习 {(Mi,Mi1)}i=1k\left\{(M_i,M_i^{-1})\right\}_{i=1}^k,其中 Mi:XtrXteM_i:X_{tr}\rightarrow X_{te}Mi1:XteXtrM_i^{-1}:X_{te}\rightarrow X_{tr}

  对于测试域中的给定输入,他们建议将测试域输入映射到源域 (即,如果源域中生成了输入,那么输入将是什么),然后基于这个反事实输入进行预测。

  类似地,Teshima 等人 [78] 建议从一组不同领域的独立组件 Z 中识别生成 X 的不变机制。该方法采用多个域的训练数据,利用非线性独立分量分析 (ICA) 识别特征 Z 和跨域的不变映射 f:ZXf:\mathcal{Z}\rightarrow\mathcal{X}。他们的估计 f^\hat{f},识别目标域中 Z 的值,并生成模仿目标域的伪样本。一个标准的监督学习算法可以在这些生成的数据上训练。

3.3 未解决的问题

3.3.1 缺乏针对不变性学习的目标基准

  之前的方法并没有以标准化的方式进行评估,因为大多数论文都设计了玩具实验来评估性能。因此,实践者不能轻易地确定最佳方法。

  评估面向对象设计泛化的最常见方法是在训练数据中引入虚假关联,并在关联发生变化的测试域中评估性能。例如,Arjovsky 等人 [27] 引入 ColoredMNIST基准,该基准将颜色添加到数字上,并改变了测试和训练数据之间颜色和数字标签之间的关联强度。Wang 和 Jordan [23] 使用 ColoredMNIST 和 CelebA 数据集 [79] 对他们的算法进行了评估,并对感兴趣的人脸属性和虚假属性之间的各种虚假关联进行了评估。例如,训练数据包含了黑发和项链之间的虚假联系。此外,Wang 和 Jordan [23] 建议比较在他们的模型中表示的特定维度变化下的泛化能力。

  为了提供考虑因果依赖的算法的最坏情况评估,Subbaswamy 等人 [80] 提出了一种基于可变变量指定分布移位的评估协议。边际分布可能会发生变化,该度量考虑了对因果后代的影响。给出了性能的最坏情况估计,它告知了实践者在他们选择的应用中任何模型的可靠性。我们希望看到这样的框架得到更广泛的采用。

3.3.2 不变性学习可能有利于对抗鲁棒性/元学习

  我们注意到两个活跃的类似于不变学习的机器学习研究领域 : 对抗性鲁棒性和元学习。我们建议调研不变性学习如何使这些领域受益,因为它目前还没有得到充分的探索。

  在对抗鲁棒性方面,我们感兴趣的是学习对对抗扰动具有鲁棒性的分类器。对抗性扰动是一种加性随机变量 Δ\Delta,它使模型 X~=X+Δ\tilde{\mathbf{X}}=\mathbf{X}+\Delta 无法进行分类,而该模型正确地对图像 X\mathbf{X} 进行分类。通常 X~\tilde{\mathbf{X}}X\mathbf{X} 是人眼无法区分的。当然,我们可以从因果关系的角度来看待 AR 的问题,并将稳健模型解释为对扰动不变的模型,正如我们稍后将在章节 8.2.1.2 中看到的那样。

  在元学习中,我们经常寻求学习跨任务的共享结构以及可以快速适应未知任务的特定于任务的参数 [81,82,83]。在这里,我们可以将共享结构解释为在任务之间是不变的。未来的工作是有必要检验这些从学习不变性中获得的想法是否可以用于学习更好的任务不变表示。例如,探索对任务变量的干预可能会很有趣,而不是以任务变量为条件。

3.3.3 可以利用附加的监督信号来进行不变性学习

  我们调查了不变特征学习中的方法 (章节 3.1),这些方法除了标签 Y 以外还需要两种不同形式的额外监督,i) 内容不变转换 (章节 3.1.1),或 ii) 环境指数 (章节 3.1.2)。额外的监控信号充当了对虚假特征进行模拟干预的手段,这有助于模型避免任何对虚假关联的预测依赖。在这方面,这些方法模拟了假特征上的介入分布。

  其次,我们可以尝试利用高维环境信息,而不是环境指数 eEe\in\mathcal{E}。例如,为奶牛图像 (图 3.1) 收集的数据集可以附加有为每个环境拍摄照片的风景的航拍照片,这用作导致数据和标签的环境变量。Kaddour 等人 [83] 提出了一种元学习方法,该方法假设附加的任务描述符,例如每个环境一幅图像。

  最后,我们可以在数据上要求更多的标签,比如章节 3.1.2.4 利用的对象标签和属性标签。识别和利用其他形式的标签来实现不变特征学习是一个悬而未决的问题。

4.因果生成建模

  生成性建模的目标是产生模仿我们训练数据特征的样本。可控生成领域指的是允许我们强制执行一组新样本应该满足的属性的技术。来自条件分布 p(xa)p(x|a) 的非因果可控生成样本,其中 A 是属性规范[84,85]。这种观测分布将我们限制在训练数据中看到的样本属性。然而,我们可能希望生成具有在我们的训练数据中未观察到的属性的新颖组合的样本,或者通过仅指定我们想要改变的属性来编辑特定样本,并自动合并下游因果效应。

  因果生成模型 (CGM) 通过估计干预性或反事实的分布,为可控生成和样本编辑提供了一个因果视角。对于可控生成,在给定数据的因果表示 Z 的情况下,我们从 p(xdo(a))p(x|\text{do}(a)) 中采样,其中 AZA\subset Z 是我们希望强制实施的属性集。如果我们希望根据属性 a 编辑样本 x,则我们的目标估计为 p(xax,do(A))p(x_a|x,\text{do}(A))

图 4.1.脑图像反事实样本 [86] : 研究人口统计学变化对大脑结构的影响的一种方法是产生反事实的样本,就像 DeepSCM (章节 4.1.1)。干预变量为 a) 年龄、s) 性别、b) 脑容量、v) 脑室容量。第一行:反事实样本,为每一列指定干预措施。最下面一行:差值图谱。

  CGM 的一个独特用例是对复杂因果机制的科学研究 : 遵循 Pawlowski 等人 [86] 的说法。想象一下,在一个医学成像系统中,我们感兴趣的是,如果特定的特征不同,一个人的解剖结构会如何变化。通过以因果图的形式纳入专家领域知识,反事实分布使我们能够在人的生物性别不同的反事实情景下模拟脑 MRI 扫描的图像。通过分析相应的反事实样本,我们可以更好地理解生物性在大脑中的物理表现。图 4.1 展示了 Pawlowski 等人 [86] 制作的一些反事实样本。

  另一个独特的CGM用例是反事实数据增强。回想一下图 3.1 中训练图像分类器的例子。给出了高山牧场常见奶牛的训练数据,分类器无法对不熟悉的背景进行概括,例如在海滩上观察到奶牛。结果,在这种情况下,分类器可能学习草背景和奶牛标签之间的虚假关联。然而,我们可以通过用不同背景中的奶牛的图像来增强数据来消除数据集中的虚假关联。例如,Sauer 和 Geiger [87] 建议学习一种将背景和前景属性分开的生成模型。然后,该模型可以生成图像,其中奶牛图像被介入以具有新的背景,例如海滩。

  我们如何才能了解这种干预性和反事实的分布呢?鉴于在没有广泛的领域知识的情况下,不可能从数据中无监督地学习解缠表示 [88,89],我们在这一节中探索的方法根据他们所需的监管和领域知识而有所不同。一方面,我们讨论了在结构分配学习 (章节 4.1) 中需要基本因果图的一些领域知识的技术。另一方面,我们将放宽这一要求的方法称之为因果解缠 (章节 4.2)。

标记

Z\mathbf{Z} 生成变量

KK Z\mathbf{Z} 的维度 dim(Z)\dim(\mathbf{Z})

A\mathbf{A} 属性 / 干预变量

II 干预变量指数集使得 ZI=A\mathbf{Z}_I=\mathbf{A}

PP II 的维度 dim(I)\dim(I)

ϵ\epsilon 独立的外源性因果亲本

G\mathbf{G} 图邻接矩阵

4.1 解构赋值学习

  我们首先重点介绍一些方法,这些方法需要实践者指定数据生成过程 (DGP) 中关于观察到的生成变量 Z 的潜在因果图 G\mathcal{G},而不是完整的 SCM。相反,对于 zj:=fj(pa(zj),ϵj),j=1,...,Kz_j:=f_j(\mathbf{pa}(z_j),\epsilon_j),j=1,...,K ,这些方法可以从数据中学习结构赋值 {fj}j=1K\{f_j\}_{j=1}^K,其中 K=GK=|\mathcal{G}|。请注意,这些方法依赖于没有任何隐藏的混杂因素 (章节 2.5),这一假设也被称为因果充分性。

  这些模型经过训练以学习基本 SCM 的结构赋值,并识别给定样本的外部噪声值 {ϵi}i=1K\{\epsilon_i\}_{i=1}^K。在训练之后,模型为介入变量 A 生成反事实 p(zaz,do(a))p(z_a|z,\text{do}(a))

方法核心思想参引
DeepSCM独立学习每个结构赋值章节 4.1.1
VACA与GNN共同学习结构赋值章节 4.1.2
DCEVAE群体结构赋值取决于选择的属性章节 4.1.3
Diff-SCM用扩散模型学习外源噪声章节 4.1.4
CGN了解用户指定的独立变异因素的生成机制章节 4.1.5

表 4.1.结构赋值学习方法概述

4.1.1 自主学习的结构赋值

  Pawlowski 等人 [86] 介绍 DeepSCM,这是一种在给定数据生成过程的基本因果 DAG 的情况下估计干预性和反事实分布的原则性方法。他们建议通过使用归一化流程 [90] 和变分推理 [91] 从其亲本 pa(zi)\mathbf{pa}(z_i) 和相互独立的噪声项 ϵi\epsilon_i 学习每个变量 zi:=fi(ϵi;pa(zi))z_i:=f_i\left(\epsilon_i;\mathbf{pa}(z_i)\right) 的函数赋值 fif_i 来实例化其 SCM。

  为了估计给定样本的反事实性,我们需要获得其外生噪声值。获得在给定样本中观察到的噪声值被称为诱骗步骤,正如我们在定义 2.3.2 中所述。为了执行这一步骤,Pawlowski等人 [86] 建议通过对低维设置中的流进行归一化并通过高维设置中的变分推断来学习每个观察到的 ziz_i 到其各自的噪声项 ϵi=fi1(zi,pa(zi))\epsilon_i=f_i^{-1}(z_i,\mathbf{pa}(z_i)) 的映射。在学习了这种映射之后,人们可以通过修改因果图中的选择变量,并用固定的噪声值评估来自 SCM 的预测来执行反事实查询。

  图 4.1 凸显了所产生的反事实样本的一些例子。我们注意到,这种方法已经被应用于5阶因果图。将这种方法扩展到更大的因果图是一个开放的研究问题。

4.1.2 使用GNN进行结构赋值

  Sanchez-Martin 等人 [92] 在 DeepSCM 的基础上发展 (章节 4.1.1) 并研究如何使用图形神经网络 (GNN) 来解决相同的任务。与DeepSCM不同,他们的方法在训练过程中同时学习所有 (潜在的非线性) 结构分配。他们将自己的方法称为 Vaca。

  它们将因果图表示为嵌入在 GNN 的每一层中的邻接矩阵 G\mathbf{G}。编码器 pθ(wz,G)p_{\theta}(w|z,G) 和解码器 pθ(zw,G)p_{\theta}(z|w,G) 都是以 G\mathbf{G} 为输入的 GNN。他们认为 Z 代表内生因果变量的集合,并将每个潜在变量 WiW_i 识别为捕捉了 pa(Zi)\mathbf{pa}(Z_i) 无法解释的关于 ZiZ_i 的所有信息。注意,W 不一定对应于外生变量 ϵ\epsilon,并且 p(w)p(ϵ)p(w)\ne p(\epsilon)

  这个模型的表现力相对于基本因果关系图的大小是有限的。当且仅当其解码器中的隐藏层数大于或等于 γ1\gamma-1 时,VACA 才捕获因果干预,其中 γ\gamma 是真实因果图中任意两个内生节点之间的最长路径的长度。由于 GNN 的性能随着深度的增加而急剧下降,VACA 将很难在大型因果关系图上表现良好。

4.1.3 组结构赋值

图 4.2.去纠缠因果效应变化自动编码器 (DCEVAE) [93],见章节 4.1.3。

  Kim 等人 [93] 开发一个生成模型 DCEVAE,该模型通过分割因果 DAG 并学习三个不同的片段来产生反事实样本 (见图 4.2)。这些细分必须取决于我们想要进行的干预。他们建议根据哪些特征经历干预来对因果图进行聚类,这可能带来两个好处:i) 它可以减少VACA (章节 4.1.2) 沿着马尔可夫分解的错误传播问题,以及ii) 相较于之前的方法,它允许对高阶因果图进行反事实抽样。

  该方法输出图像,并将观察到的概念标签 Z,例如 CelebA [79] 数据中的胡子或性别作为输入。在给定对 AZ\mathbf{A}\subset\mathbf{Z} 的干预的情况下,推导出新的干预分布 p(zdo(a))p(z'|\text{do}(a)),并且 xIx^IzIz^I 生成。实践者指定他们想要干预的概念标签 A,以及被干预变量 Zd\mathbf{Z}_d 的因果后代。剩余的属性为 Zr=Z{AZd}\mathbf{Z}_r=\mathbf{Z}\setminus\{\mathbf{A}\cup\mathbf{Z}_d\}。外生变量也被拆分,使得 ϵd\epsilon_dϵr\epsilon_r 分别是 ZdZ_dZrZ_r的外生因果亲本。在给定样本 x 的情况下,该模型通过识别生成变量 z 和样本外生因素 ϵd\epsilon_dϵr\epsilon_r,并生成反事实 xax_a,从对 A 的干预中产生反事实样本。

  学习任务是估计将观察到的因果变量 z 映射到外部变量 pθ(ϵr,ϵda,zd,zr,x)p_{\theta}(\epsilon_r,\epsilon_d|a,z_d,z_r,x) 的编码器和生成反事实样本的解码 pθ(zd,zr,x,ϵd,ϵra)p_{\theta}(z_d,z_r,x,\epsilon_d,\epsilon_r|a)。由于 Z=AZdZr\mathbf{Z}=\mathbf{A}\cup\mathbf{Z}_d\cup\mathbf{Z}_rϵ=ϵdϵr\epsilon=\epsilon_d\cup\epsilon_r 的去纠缠,编解码器可以巧妙地分解。

  这种方法被应用于 CelebA 数据集 [79],并在反事实抽样中改进了因果不可知论模型,考虑了干预的下游影响,但图像通常是模糊的。

4.1.4 基于扩散的反事实估计

图 4.3.Diffusion-SCMs [96] : 它允许我们通过干预 Y 和推断溯因噪声 u 来产生反事实 xyx_y。扩散过程对外部因素进行编码,分类器引导用于模拟对 Y 的干预。参见章节 4.1.4。

  扩散模型最近已经成为一种用于图像的高效生成性建模框架 [94],Dhariwal 和 Nicholl [95] 提出的分类器指导框架允许有条件的生成。Sanchez 和 TSaftaris [96] 提出了 Diff-SCM,这是一个使用去噪扩散模型的反事实采样框架 [85,94,95]。他们在其实现中使用了一个双变量因果模型,其中 YXY\rightarrow\mathbf{X} 如图 4.3.a 所示。

  遵循 Song 等人基于分数的框架 [85], 在 Dhariwal 和 Nichol 的分类器指导框架 [95] 中,DIFF-SCM 使用反因果预测器作为分类器指导的手段。反因果预测器将生成引导到反事实分布,并且通过参数 s 来管理引导与分数匹配目标的平衡程度。Sanchez 和 TSaftaris [96] 将正向扩散视为对外部变量的编码 (外生步骤),并将分类器指导视为模拟生成过程中的干预的一种手段。

  在他们的工作中,他们模拟了对类别标签 Y 的干预,从而产生了反事实样本,这些样本在质量上彼此有一些高水平的相似之处,但在分类标签上不同 (见图 4.3.b)。

4.1.5 去纠缠的因果学习机制

图 4.4.反事实生成网络 [87] : 对于图像生成任务,变异系数 (FoV) 被识别为对象形状、对象背景和对象纹理 (参见第节 4.1.5)。

  Sauer 和 Geiger 提出了反事实生成网络 (CGN) [87],这是一个由不变因果机制驱动的生成网络 (见章节 3.2)。作者使用了三个并行的 BigGAN [97] 机制来识别和修改独立的变异因素 (FoV) : 对象形状、对象纹理和背景。如图 4.4 所示,这些结构被训练成共同进行一个FoV,并通过一个合成模块 C 组成。

  CGN 依赖于给定 FoV 的独立性,因此假设一个简单的因果图,其中每个 FoV 导致 X,如图 4.4.a 所示。CGN 将噪声向量和属性 A 作为输入,并输出干预样本 (其中针对给定属性 a 的噪声值在不同结构之间不同) 或反事实样本 (其中针对每个结构共享噪声值和属性)。

4.2 因果去纠缠

方法核心思路参引
CausalVAE给出因果变量标签,学习图结构和赋值章节 4.2.1
AdaGVAE在指定数量的干预之前和之后给出样本,学习图结构和赋值章节 4.2.2
ICLM给出一些干预前后的样本,学习图结构和赋值章节 4.2.3

表 4.2.因果去纠缠方法概述

  接下来,我们研究不需要指定任何基本因果图的方法。他们寻求识别变量之间的潜在图结构和结构赋值,从而学习一组因果分离的表示 [11,14]。


定义 4.2.1 : 因果去纠缠

  我们称一组表示为 Z,使得 X=g(Z)\mathbf{X}=g(\mathbf{Z})对于某个映射g,如果它们允许因式分解,则它们是无纠缠的

p(z1,....,zK)=i=1Kp(zipa(zi))(4.1)p(z_1,....,z_K)=\prod_{i=1}^Kp(z_i|\mathbf{pa}(z_i))\tag{4.1}

  式中 pa(Zi){Zj}jiϵi\mathbf{pa}(Z_i)\subset\{Z_j\}_{j\ne i}\cup\epsilon_iϵi\epsilon_iϵi\epsilon_i 的外生因果因素。


  这些方法不需要访问完整的因果图 G,而是需要实践者关于感兴趣的生成变量 Z 的知识。他们学习如何复制观测分布 p(x)p(x)、介入性分布 p(xdo(a))p(x|\text{do}(a)) 和反事实分布 p(xax,do(A))p(x_a|x,\mathbf{do}(A))

4.2.1 指定的因果变量

  Yang 等人 [98] 提出了 CausalVAE,这是一种从数据中学习潜在变量的因果模型并生成反事实样本的方法。数据集必须包含每个样本的潜在原因变量的标签,以建立 SCM,遵循 [89] 中概述的可辨识性框架。这些标签代表生成变量 Z。

  如VACA (章节 4.1.2),CausalVAE 将 SCM 表示为邻接矩阵 G。然而,与 VACA 不同的是,CausalVAE 学习 G 和线性结构赋值,就像在等式 (4.2) 中一样。而 VACA 允许非线性结构赋值。

z=GTz+ϵ(4.2)z=\mathbf{G}^Tz+\epsilon \tag{4.2}

  我们根据如下属性 a 来生成反事实样本 xax_a : 对于给定的样本 x,编码器识别外部噪声。外生噪声通过 SCM 和等式 (4.2) 确定因果潜变量 z,得到 z=(IGT)1ϵz=\left(\mathbf{I}-\mathbf{G}^T\right)^{-1}\epsilon。现在我们有了 z 的编码,我们模拟对属性 a 的干预。为了获得反事实的 zaz_a,z 被输入到等式 (4.2)除了对反映干预 a 的 G 的修改之外。然后将反事实 zaz_a 输入到解码器以生成反事实样本 xax_a

  这种方法被应用于 CelebA 数据集 [79],在那里他们构建了一个关于4个潜在变量的 SCM。

4.2.2 指定的干预次数

  Locatello 等人 [99] 提出了ADA-GVAE : 一种识别因果去纠缠表示的生成式模型。数据需要是未指定干预前后的配对样本的集合,并增加了一个条件,即我们知道已干预的潜在遗传变量的数量。具体地说,我们有一个元组集合 {(xi,xiI,P)}i=1n\left\{(x_i,x_i^I,P)\right\}_{i=1}^n,其中 P 是已经干预的发生变量的数量,xix_i 表示干预后的样本。

  对于潜在的生成变量 Z,Locatello 等人 [99] 假设它们是独立的,并允许一个先验分解 p(z)=p(z)=\prod。对于 I[K]I\subset [K] 中介生成变量的指标集 I=P|I|=P,和 Zi:=A\mathbf{Z}_i:=\mathbf{A} 中介生成变量,我们有

p(x,xI,z,zI,I)=p(xz)p(xIzIˉ,zI)p(z)p(zI)p(I)(4.3)p(x, x^I , z, z^I , I) = p(x | z)p(x^I | z_{\bar{I}}, z_I )p(z)p(z_I )p(I) \tag{4.3}

  为了识别干预变量 ZIZ_I,选择未干预变量 ZIˉZ_{\bar{I}} 作为 K−P 变量,其导致 DKLD_{KL} 的最小值 (pθ(zi,x)pθ(zixI))(p_{\theta}(z_i,x)||p_{\theta}(z_i|x^I))。在识别之后,未干预变量的后验分布在样本对之间被设置为相等,而被干预变量的后验分布保持不变。然后优化最大似然目标以学习产生式模型。

4.2.3 弱监督因果去纠缠

**图 4.5**.**ILCM [100] 模拟干预措施与基本事实的比较** : ILCM预测一组干预措施 I 对一组因果变量 $\{c_i\}_{i\in I}$ 的影响。给定一个样本 X,该模型将生成干预下的样本的模拟,如图的最下面一行所示。参见章节 4.2.3 的解释。

  Brehmer 等人 [100] 对 Ada-GVAE 进行了改进,去除了从业者有权获得样本对之间的干预变量的数量的要求,提出了在元组集合 {(xixI)}i=1n\left\{(x_i,x^I)\right\}_{i=1}^n 上学习生成模型。在这种情况下,他们提出了两种类型的模型 : 显式或隐式潜在因果模型。对于前者,ELCM 他们引入了一个先验而不是潜在变量 p(Z)p(Z) 来编码指定因果图的结构。对于后者,他们称之为迭代学习模型,他们建议学习噪声编码器 pθ(ϵ,ϵIx,x)p_{\theta}(\epsilon,\epsilon^I|x,x'),该编码将数据 (X,XI)(X,X^I) 映射到干预前后潜在因果模型中的外生噪声值 (ϵ,ϵI)(\epsilon,\epsilon^I)。指定了一个先验 p(ϵ,ϵI,I)p(\epsilon,\epsilon^I,I),它假定外生因果亲本 ϵi ⁣ ⁣ ⁣ ⁣ϵj\epsilon_i\perp\!\!\!\!\perp \epsilon_j 对所有 i,j[K]i,j\in[K] 都是独立的。ILCM 不需要从业者指定潜在的因果关系图、感兴趣的因果变量或结构机制。所需要的是确定因果图 Z 的维度 K。

  ICLM 隐式学习生成变量 Z,因为外部噪声值决定 SCM 中的变量。为了获得显式形式的生成变量,他们学习解函数 s(.,.)  s.t.  zi=s(ϵi,ϵi)s(.,.)\ \ \text{s.t.}\ \ z_i=s(\epsilon_i,\epsilon_{-i})。通过对生成变量 Z 应用基于干预的因果发现算法来学习因果图。

  ICLM 通过最大化对最大似然的 ELBO 近似来学习,并且噪声解码器 p(xϵ)p(x|\epsilon) 从推断的外部变量生成样本。Brehmer等人 [100] 复制介入分布 XIp(xdo(A))\mathbf{X}^I\sim p(x|\text{do}(A)),如图4.5所示。

4.3 为解决的问题

4.3.1 不同级别的抽象化

  因果表征学习 (CRL,定义.2.4.1) 旨在从我们的数据 X 的潜在生成因素 Z 中找到一个 SCM,其中生成因素被假设为因果变量。然而,除非我们在 SCM 中指定正确的抽象级别,否则这个问题是不合时宜的。例如,我们可以选择在图像中的每个像素之间 (dim(Z)=dim(X)\dim(\mathbf{Z})=\dim(\mathbf{X})) 或在图像中可能观察到的三种类型的可能对象 (3=dim(Z)dim(X))(3=\dim(\mathbf{Z})\ll\dim(\mathbf{X})) 之间构建因果模型。这两种模型可能会提供相同的性能 (假设有足够的数据和计算),但后者更高效,对人类来说也更容易理解。

  如何为因果表征学习确定一个合理的抽象水平并不明显,更不用说进行自动化了。章节 4.2 中的所有方法需要 SCM 抽象的必需规范,例如 CAUSALlVAE (章节 4.2.1) 数据中需要变量标签,而 ILCM (章节 4.2.3) 指定干预前后的 dim(Z)\dim(\mathbf{Z}) 和所需的样本对。我们能不能找出其他合理的规范,或者甚至放宽它们?例如,ILCM 放宽了Ada-GVAE (章节 4.2.2)。

  因此,什么样的监督信号对 CRL 是最优的,存在什么权衡,哪些信号是合理要求的,都是悬而未决的问题。

4.3.2 将结构赋值学习扩展到更大的图

  回顾章节 4.1 中的结构赋值学习方法,其生成了令人信服的反事实样本,然而它们要么对相对低阶的因果关系图进行操作,要么对结构赋值进行摊销并专门研究一套看似合理的干预措施。我们想要对高阶因果关系图进行建模,并灵活地从它们中生成反事实样本,以便捕捉现实生活中的动态,例如在细胞生物学中 [102,103]。

  然而,章节 4.1 中的方法没有证明阶数大于 5 的因果图上的结果,但 DCEVAE (章节 4.1.3) 对图形赋值进行摊销。DeepSCM (章节 4.1.1) 在训练中可能会受到沿着结构赋值传播的错误的影响。VACA (章节 4.1.2) 依靠难以在几个层面上扩展的 GNN。因此,如何解决结构赋值学习中潜在因果图的可扩展性问题仍然是一个悬而未决的问题。

4.3.3 理解反事实数据增强

  正如我们在章节 3.1.1.1 中看到的那样,反事实数据增强 (CFDA) 已经成为一种日益增长的趋势,稍后我们将会在章节 7.8、8.1.3.1、8.2.3 和 8.3.2 中看到。在此,我们关注 CFDA 使用因果生成模型而不是手工制作的转换。虽然许多增强可以是手工制作的,例如图像上的颜色转换和旋转 [104],但我们也可以使用生成模型来创建数据增强。例如,GenInt (章节 3.1.1.1) 使用GaN [97] 创建数据增强。

  然而,尽管 GenInt 使用了因果不可知性生成模型,但也可以使用因果生成模型来生成 CFDA。我们在章节 3.1.1 中探索了数据增强的因果视角,其中给定的增强被视为对数据的虚假特征的干预。Sauer 和 Geiger[87] 在 章节 4.1.5比较在 1)反事实样本和 2)由GAN生成的非反事实样本,并发现反事实样本更多地改善了分类器的性能。

  探索CFDA使用因果生成模型何时以及在多大程度上提高了泛化能力仍是一个没有解决的问题。对于手工制作的数据增强,人们已经对其有效性有了一些了解。例如 HernándezGarcía 和 König 的结论是它比显式正则化 (如权重衰减或丢失) 更有效。Chen等人 [106] 表明传统数据增强使损失表面变平,并且它可以实现与 flat-minima 优化器 [107] 类似的性能提升。Cubuk等人 [108,109] 提供自动增强生成器。对于CFDA来说,像前述那样的工作和结果都缺失了。

  此外,CFDA 可以作为比较因果生成方法的评估代理,因为它们能够改善外部预测者的泛化性能。对于固定的预测模型和训练数据集,当算法使用反事实采样方法生成的数据增量进行训练时,本章中的方法可以在预测算法测试损失方面进行比较。这样一种基准方法还没有得到充分的探索。

5.因果可解释性

  人工智能可解释性 (或可解释人工智能) 的目标是输出解释,使模型构建的决策为人类所理解,并提供为什么预测输出的答案 [110]。从模型可解释性 [5] 的角度来看,这是指观察者能够理解模型预测的原因的程度,解释属于后可解释性的范畴 : 模型 (预测) 在训练之后被分析,而内在可解释性可能指的是其复杂性受到限制从而牺牲预测性能的模型 [111]。现在已经提出了许多解释方法,我们建议读者参考 [112,113,114,115] 进行出色的调查。

  在这一部分中,我们将重点介绍两类解释性技术 : 特征归因和对比解释。我们将在相应的小节中解释因果关系是如何进入画面的。所有讨论的方法都提供了基于单一输入的个别预测的本地解释,并且与模型无关,即它们可以用于不同的模型类型。相比之下,也有提供全局解释的方法,描述模型对整个数据集中每个特征的平均依赖,以及特定于模型的方法,例如对图像训练的神经网络的显著图 [116,117]。后两者不在本次调查范围内。

  为了激发解释的有用性,让我们考虑一下某人申请贷款但被金融机构的贷款分配模型拒绝的案例。在大多数情况下,个人希望理解模型的推理,以加强他们下一步的应用。将此场景固定为运行示例,我们将在接下来的小节中引入多种技术来生成解释。

标记

xFx^{\text{F}} 结果令人不悦的事实个体

xCEx^{\text{CE}} 具有预期结果的反事实解释个体

xSCFx^{\text{SCF}} 具有预期结果的结构性反事实个体 (关于因果图)

分类方法 方法 核心思想 参引
特征属性 CXPLAIN 量化输入要素对模型精度的因果影响 章节5.1.1
GCE 了解导致输出变化的潜在因素 章节 5.1.2
ASVs 关于给定的因果知识放松Shapley值的不对称公理性 章节 5.1.3
CSVs 对特征进行干预,而不是以特征为条件 章节 5.1.4
多环境 反事实的解释 x^CE满足到X^F的最小距离 章节 5.2.1
通过最少的干预实现算法追索 X^SCF满足关于X^F的最小成本干预集 章节 5.2.2

表5.1.因果解释的问题概述

5.1 功能属性的解释性

  基于归因的解释为特征分配一个等级,代表每个特征对模型输出的边际贡献。在我们运行的实例中,这样的解释可能表明,对于贷款申请被拒绝的个人来说,最重要的特征是他们的总体收入,而他们的信用卡债务对模型的预测没有贡献。虽然这一解释没有提供个人应该如何申请贷款的说明,但它告诉申请人他们的申请的哪些特点可能在多大程度上导致了拒绝。

  对于我们正在运行的例子,我们解释了为什么贷款申请者更喜欢因果特征属性解释而不是关联特征属性解释,如下所示。想象一下,金融机构主要关心申请人的年收入 : 收入越高,提供贷款的机会就越高。申请人的其他特征可能与收入虚假相关 : 例如,他们的教育水平、工作、行业、是否为个体户等。

  传统的非因果归因方法可能会在所有这些相关特征上分配统一的高分。然而,如果申请者知道只有他们的收入才重要,他们可能会更直接地专注于提高收入 : 与其考虑转行,直接在目前的工作岗位上获得晋升可能会更有效。因此,在这种情况下,因果归因方法将帮助申请人更有效地实现其预期结果。

5.1.1 CXPlain

  Schwab 和 Karlen [118] 将为现有预测模型生成特征重要性估计的任务转变为有监督学习的任务。他们训练单独的监督因果解释 (CXPlain) 模型来解释预测模型。为了训练解释模型,他们使用了因果影响 (章节 2.7) 量化每个输入特征和输入特征组对预测模型精度的属性的函数。

  因果特征属性 aiRa_i\in\mathbb{R} 测量第 i 个输入特征对预测模型的输出 Y^\hat{Y} 的因果贡献的程度,作为由标准分类损失 L\mathcal{L} 测量的误差减少。换言之,aia_i 表示将该特征添加到输入特征集中的因果影响。对于 N 个训练样本,预先计算特征属性 {xi}i=1N\left\{x_i\right\}_{i=1}^N 在训练时对目标预测模型进行 N(D+1)N(D+1) 次评估,其中 D 是输入特征的数量。

  它们还提供与由 CXPlain 模型产生的每个特征重要性估计 a^i\hat{a}_i 相关联的不确定性水平的置信度区间估计。使用 Bootstrap 集成方法对 M 个解释模型进行训练以估计不确定度。每个模型在来自 {xi}i=1N\left\{x_i\right\}_{i=1}^N 的 N 个训练样本上进行训练,这些样本通过从原始训练集中替换而随机抽样。

5.1.2 生成性因果解释

图 5.1.生成性因果解释 : 改变学习的潜在因素会导致分类器输出统计的改变。为了量化潜在因素的归因,O‘Shaughnessy 等人 [119] 在 SCM 中使用变量的因果影响度量 (章节 2.7)。

  O‘Shaughnessy 等人 [119] 介绍用于事后解释的生成性因果解释 (GCE) 框架,该框架基于在分类器输出分布中产生变化的经学习的分离的潜在因素。例如,考虑一个黑盒颜色分类器,人们想要为其颜色分类构造解释。在这种设置中,人们可以学习潜在的编码器 (他们称之为本地解释程序),该编码器学习描述输入的颜色和形状的低维表示 (α,β)(\alpha,\beta)。更改 α\alpha (颜色) 会更改分类器的输出,这会检测数据样本的颜色,而更改 β\beta (形状) 不会影响分类器输出。图 5.1 显示了该架构的图示。

  为了构建因果解释,作者提出了两个组成部分 : (I) 表示数据分布并在其中移动的方法和 (ii) 量化因果影响的指标 (章节 2.7) 分类器输出数据的各个方面。为了确保学习的去纠缠表示代表数据分布,同时鼓励一小部分潜在因素对分类器输出产生较大的因果影响,它们制定了相应的优化目标。

5.1.3 非对称Shapley值

  Shapley 值提供了一种原则性的、与模型无关的方法来解释模型预测。他们能够通过依赖联盟博弈理论来捕获导致预测的特征之间的所有交互 : 其想法是在特征之间公平地分配 “支出”,这自然地量化了哪些特征对预测有贡献 [111,120]。它们是有原则的,因为它们唯一地满足四个直观的数学公理。

  然而,Frye 等人 [121] 认为 Shapley 值有一个显著的局限性 : 它们忽略了数据中的所有因果结构。其中一个公理是对称性 : 它在模型解释中将所有特征放在平等的基础上,要求属性均匀分布在信息相同 (即冗余) 的特征上。Frye等人 [121] 辩称,当存在冗余时,我们可能会通过放松这一公理来寻求更稀疏的解释。

  例如,如果已知两个特征中的一个是另一个的确定性因果祖先,则两个特征可能相互关联。在这种情况下,将所有的重要性都归于祖先而不归于后代是有意义的,这与对称公理相反。否则,这些解释可能会混淆数据中已知的因果关系。

  为了放宽对称公理,作者提出了非对称 Shapley 值 (ASV),它唯一地满足其他公理,并且如果特征被馈送到模型的顺序上的分布是均匀的则简化为 Shapley 值。这种放松允许从业者在排序上放置非均匀分布,从而将因果理解合并到解释中。例如,人们可能只对祖先在其 (已知) 后代之前的排列赋予非零权重。换句话说,只有与特征之间的因果结构一致的特征排列才具有非零概率。这种方法倾向于用远端 (即根本) 原因来解释,而不是用近端 (即直接) 原因来解释。

  Frye 等人 [121] 讨论 ASV 跨越最大数据不可知性 Shapley 值和基于因果关系的解释方法之间的连续体,后者通常需要数据背后的确切因果过程。因此,ASV 允许任何关于数据生成过程的知识,无论多么不完整,都可以被纳入对其模型的解释中,而不需要经常令人望而却步的完全因果推理。例如,如果因果知识有限,甚至可以首先对单个已知的因果祖先进行排序,对剩余特征的排列进行统一加权。


定义 5.1.1.远端分布 (ASV) [121]

  假设有 D 个输入特征,其中 Π\Pi 表示它们的所有排列的集合,并且 π(j)<π(i)\pi(j)<\pi(i) 表示特征 j 在排序 π\pi 下的特征 i 之前。设 Δ(Π)\Delta(\Pi)Π\Pi 上的概率度量集,使得每个 wΔ(Π)w\in\Delta(\Pi) 是满足 πΠw(π)=1\sum_{\pi\in\Pi}w(\pi)=1 的映射 w:Π[0,1]w:\Pi\rightarrow[0,1]。非对称 Shapley 值将 Shapley 值 [120] 的均匀分布 wΔ(Π)w\in\Delta(\Pi) 替换为:

wdistal(π){1if  π(i)<π(j)  for any knownancestor  i  descendant  j0otherwisew_{\text{distal}}(\pi)\propto \begin{cases} 1 & \text{if}\ \ \pi(i)<\pi(j)\ \ \text{for any known}\\ & \text{ancestor}\ \ i\ \ \text{descendant}\ \ j\\ 0 & \text{otherwise} \end{cases}

  由于使用了定义 5.1.1,已知因果祖先的 ASV 表明这些特征对预测的影响,而其后代仍未指明。然后,后代的 ASV 表示它们在规范上的递增效果。

5.1.4 因果Shapley值

  Janzing 等人 [122] 认为 Lundberg 和 Lee 等 [120] 以前的工作对 Shapley 值存在误解,因为这些方法使用的是观察性条件分布而不是干预性条件分布。虽然这些建议在概念上是有缺陷的,但在实践中,由于其近似性质,它们的软件实现仍然有效。

  Heskes 等人 [123] 通过提出因果 Shapley 值 (CSV) 来弥补这一概念缺陷,该值解释了特征对预测的总影响,并考虑了它们的因果关系。为了结合因果知识,他们通过观察条件 Shapley 值来取代传统的条件反射,而通过干预来代替条件反射。

  与 ASV 不同的是,他们指出“没有必要诉诸不对称的 Shapley 值来纳入因果知识”。放松对称性公理与他们的方法是正交的。人们还可以获得实现这两种观点的不对称因果 Shapley 值。对于 ASV,从业者只需要提供部分因果顺序和一种解释处于平等基础上的功能之间的依赖关系的方法。

  CSV 的一个好处是,它们允许将特征对模型预测的总影响分解为直接和间接影响。当随机特征 XiX_i 被固定为 xix_i 时,直接影响衡量预测中的预期变化,而不改变其他“联盟外”特征。间接效应衡量了当其他“联盟外”特征的分布因额外干预 do(Xi=xi)\text{do}(X_i=x_i) 而发生变化时预期的差异。

  Chen 等人 [124] 争辩说,一般来说,无论是观察性的 (“数据的真实性”) 还是干预性的 (“模型的真实性”) 条件概率通常都是不错的,但选择取决于应用。他们提供了来自信用风险建模和生物发现领域的两个真实数据示例,以展示不同的价值函数选择如何在每种情况下执行得更好,以及概率分布的选择如何影响归因的可能性。

5.2 对比的解释性

  社会学研究表明,人类的解释通常是对比性的 : 他们强调解释为什么一个事件而不是另一个事件发生的因果因素 [125]。通过修剪所有因果因素的空间,这种解释促进了更容易的沟通,并减少了解释者和被解释者的认知负担 [126]。

  对比解释通常是反事实的,因为它们估计了观察的更改版本,这可能会改变模型的预测,因为我们知道模型从原始数据点进行的预测。这个想法的基本实现,我们此后将称之为反事实解释,在概念上很简单,不需要太多的因果机制。此外,我们将研究算法资源 (AC) : 算法资源不是提供对特征空间中导致期望预测的最小距离点的理解,而是旨在为个体产生最小代价的动作集,以因果知识的形式考虑观察变量之间的依赖关系。

5.2.1 反事实的解释性

  反事实解释 (CE) 通过计算个体特征的 (通常是最小的) 变化来解释预测,这将导致基础模型将其归入所需的类别 [127]。通过展示本应获得贷款的同一人的特征被扰乱的版本,反事实的解释可以提供有关未来如何确保更好结果的可行信息。CE 是反事实的,因为它们考虑事件 P 的历史中实体的改变,其中 P 是不需要的模型输出 [128]。

  例如一个功能实例化可能会改变上面示例中的预测,它将是“如果您的收入高出 10k 美元,您就会收到贷款”。与依赖于近似分类器的决策边界 [129] 的解释方法相比,反事实解释总是真实的。通过使用算法的实际预测来建立底层模型。

图 5.2.反事实解释与因果算法追溯,由贷款申请被拒绝的个人所示,由特征 xF={x1F,...,x5F}x^F=\{x_1^F,...,x_5^F\} 表征。


定义 5.2.1.反事实的解释 [130]

  对单个 xF\mathbf{x}^{\text{F}} 的反事实解释 xCE\mathbf{x}^{\text{CE}} (或最接近的对比解释) 由以下优化问题的解给出:

xCEargminxXdist(x,xF)s.t.  h(x)h(xF),xP(5.2)\mathbf{x}^{\text{CE}}\in\arg\underset{x\in\mathcal{X}}{\min}\text{dist}\left(x,x^{\text{F}}\right)\\ \text{s.t.}\ \ h(x)\ne h(x^{\text{F}}),x\in\mathcal{P}\tag{5.2}

  其中,dist(,)\text{dist}(\cdot,\cdot)X\mathcal{X} 上的相似性度量,而 P\mathcal{P} 是反映所获得的反事实解释的可行性或多样性的一组可选的似然约束 [132]。


  简单地解释预测可能会干扰建设性的求助,如果它们违反了对所建议的特征改变的似是而非和可操作性 (可行性) 约束。例如,要求个人降低年龄或改变种族等行动是不可行的。因此,常见的可信约束包括 (i) 域一致性、(ii) 密度一致性和 (iii) 原型一致性,而可操作性约束介于 (i) 可操作和可改变、(ii) 可改变但不可操作和 (iii) 不可改变 (和不可操作) 之间 [115]。

  反事实解释 (CE) 有许多不同的方法和变体。Schut 等人的研究成果 [133] 提出利用分类器的预测不确定性,在没有辅助模型的情况下,在白盒环境下生成反事实解释。Abid 等人[134] 描述了一种以人类可理解的概念产生反事实解释的方法。Mahajan 等人 [135] 提出通过可行性约束来保持输入特征之间的因果关系。关于 CE 方法的更详细的回顾,读者可以参考 Verma 等人的工作 [114]。

5.2.2 通过最小干预的因果算法追索

  在此之前,我们着眼于反事实的解释,这些解释展示了 “世界将如何变化 ,才能出现令人满意的结果” [130]。然而,这些解释可能并不总是转化为最优追溯源,这是一组可推荐的行动,帮助个体实现有利的结果,同时降低成本 [136]。因果算法溯源 (或相关性推荐) 领域涉及生成这样的 “将来应该做什么” 的建议,同时尊重特征之间的因果关系和行为成本 [131]。

5.3 未解决问题

5.3.0.1 统一特征归因和解释性

  归因和解释方法可以相辅相成。例如 Verma 等人 [114] 指出,解释需要强调的是,为了实现预期的结果,除了应该改变什么以外还应该保持不变。设想一个用于贷款预测的机器学习模型,该模型使用“收入”和“工作年限”作为输入。该模型拒绝了个人的贷款请求,并建议增加“收入”。因此,这个人换了工作,他们的特征“工作年限”被重置为零。尽管“收入”有所增加,但该模型仍然拒绝了贷款请求,因为它没有具体说明另一项功能不应改变。

  获得因果归因得分可能会防止这种情况的发生 : 对于特征“工作年限”的低得分将通知个人,改变其值不应对预期结果造成任何干扰。将这两种方法结合起来的第一步可见[137,138,139]。

  Fokkema 等人 [140] 将反事实的解释 xCEx^{\text{CE}} 解释为描述 xFx^{\text{F}} 的扰动的属性。由于 xFx^{\text{F}}xCEx^{\text{CE}} 之间的差异可以解释为翻转类所需的更改,因此我们可以将 ϕf=xCExF\phi_f=x^{\text{CE}}-x^{\text{F}} 视为属性向量。

5.3.0.2 可扩展性和吞吐量

  计算的解释性包括解决通常非常昂贵和难以解决的优化问题。在属性方面,计算时间通常随着特征数量的增加而指数级增加,例如在 Shapley 值的情况下,当我们有多于几个特征时,寻求它们的精确解在计算上是困难的。在对比解释性方面,当求解基于整数的变量 [141]、神经网络或二次目标和约束时,加入可信性和可操作性约束使问题变得 NP-hard 甚至 NP-complete。

  为了使解释可以部署在具有多个用户的大型系统中,对于近似方法的需求变得强烈。在归因方面,一种解决办法可能是只计算可能联盟的几个样本的贡献 [111]。Lundberg 和 Lee [120] 提出了假设特征独立的近似核形状方法。作为迈向这一目标的第一步,Mahajan 等人 [142] 学习一种可以同时为任何给定输入生成多个反事实的VAE。

5.3.0.3 动态性

  大多数解释方法都假设一个不随时间变化的静态黑箱模型。然而,在现实生活中的许多机器学习领域中,分布变化经常发生 : 用户行为可能会随着时间的推移而改变,模型会更新,决策系统的效用函数可能会被修改。当然,这些问题也出现在模型解释中,解决这些问题的工作有限 [143,144,145]。

5.3.0.4 安全和隐私

  考虑一个已部署的机器学习系统,该系统例如通过访问 API 向其用户提供解释。在这种情况下,对手可以结合预测和解释来提取近似模型以及关于用于训练该模型的数据的信息。

**图 5.3**.**通过对比解释窃取模型** [115] : Karimi 等人 [115] 使用假设的非线性决策边界在 2D 和 3D 中说明模型窃取过程。“需要多少个最佳对比解释才能提取出一个分类器的决策区域?”是否可以表示为“最大限度地包装所有决策区域需要多少个事实球?”

  例如在对比解释的情况下,三种可能的攻击策略是模型提取 [146],方法是 (i) 用反事实实例/标签扩充代理的模型数据集,以及 (ii) 通过最佳对比解释近似其决策边界,如图 5.3所示,并由 Karimi 等人进行形式化 [115] 以及 (iii) 成员关系推断攻击,其量化关于模型的训练集中存在数据点的信息解释泄漏 [147]。

  在使用关于数据生成过程 (DGP) 的因果知识的模型的情况下 章节 5.1.3、5.1.4和5.2.2),我们假设保护这种因果知识免受类似因果发现的模型提取攻击也是重要的。被允许执行足够查询的攻击者可以使用主动学习方法来主动干预输入点,并产生解释模型的因果图 [148]。

  Sack 等人 [149] 描述了反事实解释的脆弱性,并表明它们可能在微小的扰动下汇聚成截然不同的反事实,这表明它们是不可靠的。为此,他们提出了一个目标,即训练看似公平的模型,在这些模型中,反事实的解释在扰动下找到了成本较低的途径。

  关于防范这种担忧的解释方法的工作一直非常有限。Shokri 等人 [147] 提出不同的私有 (DP) 模型解释。他们设计了一种自适应 DP 梯度下降算法,该算法可以找到产生准确解释所需的最小隐私预算。Naidu 等人 [150] 研究 DP 训练的医学成像模型的可解释性。

5.3.1 稳健性与溯源敏感度

  解释方法的两个理想性质是鲁棒性和溯源敏感性 [140]。鲁棒性指的是输入的变化 : 如果我们推断类似的用户应该获得类似的追索权选项,那么输入 x 的微小变化应该不会导致解释 ϕf(x)\phi_f(x) 的大跳跃,即 ϕf\phi_f 应该是连续的。溯源敏感的属性方法允许用户总是可以通过沿向量 ϕf(x)\phi_f(x) 的方向移动来获得足够的效用。

  Fokkema 等人 [140] 指出归因方法和反事实解释不能同时具有鲁棒性和溯源性。他们的主要结论是,对于任何一种衡量效用的方法,都存在一个模型 f,对于该模型 f,没有任何归因方法 ϕf\phi_f 可以是溯源敏感且连续的。因此,未来的工作应该考虑绕过Fokkema 等人 [140] 中不可能的结果。