目录与链接

9.因果基准

在本节中，我们将概述专门为 CausalML 任务设计的基准测试，包括介入和/或反事实的基本事实数据。我们将在章节 10.2.2 更严格地讨论基准的当前局限性。

我们认为值得一提的是，对于某些任务，可以 (而且应该) 在 “传统” 基准上评估因果机器学习方法，这些基准在开发时没有特定于因果关系的设计选择。例如，在章节3中，我们讨论了可用于分布外 (OOD) 任务的方法。人们可以在通用的 OOD 基准上评估这些方法，例如一些因果不变性学习方法 (章节 3.1.1.2)。

同样，传统的 RL 基准测试通常依赖于模拟引擎来生成轨迹数据。在 RL 社区中流行的例子是 MuJoCo [332]，这是一个为连续控制任务提供合适游乐平台的物理引擎，或者是Arcade Learning Environment，允许代理玩 Atari 2600 游戏 [333]。通过将 (PO)MDPs 解释为 SCM (因果理论视角的 7.5.2)，这些现有基准可以用于评估因果强化学习方法。

然而，并不是所有传统的机器学习基准都适合于评估本文中讨论的技术。例如，为了探索因果理解的视觉推理模型 (例如，“推这个物体会有什么影响?”)，我们需要包含因果关系的问答对。

9.1 强化学习

为了促进因果关系和强化学习的共生关系，一些作者设计了强化学习模拟器，并考虑了高级的因果变量。虽然可以调整 MuJoCo 等传统基准，以允许代理干预环境变量 (如物理系统的质量或长度 [83])，但因果强化学习基准 (如 CausalWorld) 提供了定义良好的 API 和底层因果图，以简化和扩展环境干预。

CausalWorld [10] 是一个机器人操作模拟器，它提供了一个具有共同因果结构和潜在因素的任务组合家族 (例如，机器人和物体的质量、颜色、大小)。用户或代理可以干预决定环境动态的一个因果变量子集，允许他们控制任务的相似程度。

Ke 等人 [334] 指出，强化学习代理通常只观察图像中的像素等低级变量，并且必须诱导高级因果变量 (章节4.3.1)。为了评估基于模型的强化学习方法识别这些因果变量和结构的能力，他们设计了一套物理和化学环境，其潜在的因果图是可参数化的。

Wang 等人 [335] 提出了一款名为 Alchemy 的 3D 电子游戏，其中包含一个潜在的因果结构，该结构在每一章节中都被程序地重新采样。该环境提供了一个任务分布，其参数化对研究人员来说是可访问的，但产生了需要解决的挑战性任务，正如他们通过非平凡的深度强化学习方法失败的实验所证明的那样。基于探索性实验和分析，他们得出结论，智能体必须识别潜在结构的相关部分，才能解决任务。

McDuff 等人 [336] 开发了 CausalCity，这是一种高保真度的模拟器，用于在安全关键的驾驶环境中进行因果推理。目标是导航具有 “代理” 的车辆，即控制其行动顺序的高级配置 (例如，在下一个十字路口左转)，决定其低级行为 (例如其速度)。该环境旨在模拟具有复杂因果关系的场景，包括不同类型的混杂因素 (例如天气条件)。

9.2 计算机视觉

Yi 等人 [337] 介绍了用于视频表示和推理的碰撞事件 (CLEVRER) 数据集。这个视频数据集允许我们评估四种推理任务的模型 : (i) 描述性的，(ii) 解释性的，(iii) 预测性的，和 (iv) 反事实的。他们将 (ii)-(iv) 作为因果任务，并表明各种最先进的视觉推理模型在这些任务上表现很差。他们的结论是，未来的方法必须了解图像中看到的物体之间潜在的因果关系。

Ramanishka 等人 [338] 提出了本田研究所驾驶数据集 (HDD)，其中包括在旧金山湾区 104 小时的真实人类驾驶，包括描述驾驶员行为的注释。他们用 4 层来表示标签 : “目标导向的行动”、“刺激驱动的行动”、“原因” 和 “注意力”。“原因” 特性解释了某些操作的原因。

You 和 Han [339] 收集了包含交通事故场景的视频，用时间间隔和语义标签标注了每个事故的因果事件。这个数据集背后的动机是分析交通事故视频中的因果关系，方法是将事故分解为一对事件，即原因和结果。

Kügelgen 等人 [32] 介绍了 Causal3DIdent，这是一个包含具有因果依赖性的 3D 对象的图像数据集，可用于研究风格和内容分解技术 (章节 3.1) 的数据增强的有效性，其目的是隔离不变的内容，丢弃变化的风格。

图 9.1.来自 CLEVRER 数据集的样本视频、问题和答案 [337]，设计用来评估视觉推理模型是否理解以下类别的问题 : (i) 描述性的，(ii) 解释性的，(iii) 预测性的，和 (iv) 反事实性的。除了 (i)，所有任务都被认为是因果关系。我们包括标题，以便读者更好地理解帧，但它们不是数据集的一部分。

Janny 等人 [290] 提出了 Filtered-CoPhy 基准来测试反事实轨迹预测，其中给定观察到的初始条件 $x_0$ 和 T 帧序列 $x_{1:T}$ ，目标是在新的初始条件 $x^{CF}_0$ 下预测反事实序列 $x^{CF}_{1:T}$ 。有三种类型的视频数据可供测试 : BlocktowerCF，BallsCF 和 CollisionCF，影响预测的混杂因素被设计成具有足够强大的表示。

9.3 自然语言处理

构建涉及文本的因果基准具有挑战性，因为文本语料库的词汇量通常很大(例如BERT [340] 的词汇量约有 30K 个标记)，而且在自然语言处理中，用于多干预的基本真相数据很少 [292]。

Kaushik 等人 [341] 分别为情感分析和自然语言推理提供了两个反事实 NLP 数据集。给定初始文档和标签，作者招募人工修改文档以符合反事实的目标标签，同时确保内部一致性并避免对与目标标签无关的事实进行不必要的更改。

Feder 等人 [309] 提出了为因果解释设计的四个 NLP 数据集，其中三个包括给定概念的基本事实反事实例子。这些数据集允许研究人员评估放弃特定兴趣概念的反事实陈述，详见章节 8.2.2。

Frohberg 和 Binder [342] 引入了 CRASS，这是一种针对语言模型的反事实推理评估基准，是 BIG-bench 套件 [343] 的一部分。例如，他们展示了 “一个女人看到了火。如果那个女人去生火，会发生什么?” 有三个可能的答案。(a) “火会变得更大”，(b) “火会变小”，以及(c) “那是不可能的。“一个女人看到了火” 是基本前提，“如果这个女人给火添了火会发生什么?” 是一个质疑的反事实条件句 (QCC)。可能的答案，即一个正确的结果和一组作为干扰的潜在影响，定义了一个所谓的前提-反事实元组 (PCT)。更正式地说，质量控制中心的形式是 “如果 $\mathbf{A}^{CF}$ 会发生什么?”，其中 $\mathbf{A}^{CF}$ 是基本前提 $\mathbf{A}^O$ 的某个修改版本，有效地生成反事实。

Yang 等人 [344] 提出了一种细粒度因果推理数据集，包括因果关系检测、细粒度因果关系提取和因果 QA 三个任务。为了激发对更细粒度的需求，他们举了以下例子 : “COVID-19 的传播导致了网上购物的快速发展 [原因]，但它也阻止了人们去购物中心。” 作者认为，以前的数据集只考虑了上面注释的原因关系，而没有考虑更细粒度的因果事件，如启用或阻止。

继续这个例子，考虑另一段 “COVID-19 加速了网上购物的变化，鉴于亚马逊的……与给线下招聘带来压力的线下业务相比，这将带来未来几年的经济回报，并提供更有竞争力的价格。” 之前的数据集允许模型提取诸如 “COVID-19导致网上购物增加” 等事实，但它们无法检测亚马逊 “提供更有竞争力的价格” 的后续影响，以及对线下企业招聘的负面影响。这两种方法都是有用的，例如，如果我们问 “如果疫情停止了会怎样?” 的假设问题，在上述情况下，正确答案应该包括 “将会有更多的线下业务招聘”。他们的实验揭示了模型和人类天花板表现之间的显著差距 (74.1% 对比 90.53%的准确性)，提供了统计模型仍然难以解决因果推理问题的证据。

10.好的，坏的和丑陋的

在本节中，我们将阐述我们对因果机器学习可能为我们带来的好处 (好的)、在撰写本文时我们必须为此付出的代价 (坏的) 以及我们想要警告从业者的风险 (丑陋的) 的观点。换句话说，本节旨在讨论使用上述方法的影响。

10.1 好的

我们讨论了许多明确使用各种因果形式主义的方法，如 SCMs (章节 2.3)、干预 (章节 2.3.1) 或反事实 (章节 2.3.2)。因果关系提供了一个框架 (SCMs)，用于解析地表达关于数据生成过程的假设 (我们希望将其编码到模型中)，以及一个数学工具 (do-操作)，可用于在模型训练期间强制执行其属性。

在下面，我们简要地总结了因果形式主义在讨论的问题领域中为我们带来的一些好处。从纯统计的角度或使用观测分布来看，其中大多数都是不可替代的。

在章节 3 : 因果监督学习中，我们可以改进分布外 (OOD) 环境中的预测模型。不变特征学习方法 (章节 3.1) 试图确定一组内容变量 $\mathbf{C}$ 代表 Y 的因果父母，并学习一个预测因子 $p(y|c)$ ，它对风格变量 $\mathbf{S}$ 的干预是不变的。相比之下，不变的机制学习方法 (章节 3.2) 将分布的变化建模为由对一组独立的未观察混杂因素 $\mathbf{U}$ 的干预引起的，它们学习了单独的机制来建模 $p(y|x,\text{do}(u_i))$ ，对于 $i=1,...,\dim(\mathbf{U})$ 。

在章节 4 : 因果生成建模中，因果关系为可控生成任务提供了一个原则性框架。结构分配学习 (章节 4.1) 方法允许从业者为 DGP 添加基础因果图的领域知识，并生成考虑到感兴趣属性和其他生成变量之间的因果依赖关系的反事实样本。因果解纠缠 (章节 4.2) 方法更进一步，执行因果图发现和结构分配学习，这允许通过利用可用因果领域知识的较弱形式进行可控生成。

在章节 5 : 因果解释中，我们获得了模型预测的可解释性。在不访问潜在的因果依赖关系的情况下，我们可以使用特征归因方法 (章节 5.1) 来识别干预下的哪些变量与改变模型输出最相关。通过访问潜在的因果图，我们可以生成对比解释 (章节 5.2)，它提出了依赖于可操作的替代输入的反事实模型输出。

在章节 6 : 因果公平性中，我们获得了一个反事实的、或介入的标准，它允许我们评估依赖于利益的敏感属性的预测模型的公平性。通过在 DGP 中访问潜在的因果依赖性，我们可以执行特定案例的公平标准，消除选择偏差的潜在来源。

在章节 7 : 因果强化学习中，我们回顾了使用干预来形式化行动 (章节 7.2)、环境变化 (章节 7.4)、对观察到的轨迹数据进行去混杂 (章节 7.5 和章节 7.6)、行为对奖励的影响 (章节 7.7)，改变状态空间的结构，暴露出生成反事实数据增强的机会，允许我们回收已经观察到的数据。

10.2 坏的

10.2.1 无法避免不可测试的假设

通过对供应链管理中数据生成过程的假设，我们可以对干预和反事实进行推理。然而，与纯统计模型相比，做出这样的假设也会导致偏差放大 [345]，损害外部效度 [346]。使用奥卡姆剃刀 [347] 的类比，有人可能会说，更多的假设更容易导致错误的模型。

例如，Pearl [345] 说明了隐藏混杂设置中的偏置放大 (章节 11.2.1.2)。他们表明，在调整像工具变量一样的协变量 (即与治疗分配比与结果联系更紧密的变量) 时，可以减少混杂偏差，但与此同时，由未测量混杂因素携带的残留偏差可以以更快的速度积累。简单地说，通过添加更多应该有助于后门调整的协变量使因果模型更加复杂，因果效应的模型残留偏差会以有害的方式增加。一个 “更简单” 的模型排除了对治疗有预测作用的协变量，效果会更好。

10.2.2 缺乏基准

因果机器学习中最大的开放问题之一是缺乏用于训练和评估因果模型的公共基准测试资源。Cheng 等人 [348] 发现，缺乏基准的原因是难以在现实世界中观察干预措施，因为以随机对照试验 (RCTs) 形式提供的必要实验条件往往昂贵、不道德或耗时。换句话说，收集介入数据涉及与环境的主动互动 (如动作)，在模拟器之外，这比从互联网上抓取文本和创建被动观察的数据集 (如感知) 要困难得多。评估估计的反事实甚至更糟糕 : 根据定义，我们无法观察到它们，使得真实的现实世界的反事实的可用性成为不可能 [349]。

悲观的看法是，在不久的将来，为因果机器学习提供 “足够的” 基准真实数据以用于实际工业实践是不可能的。指定多少数据是 “足够的” 是任务相关的；然而，在其他也需要与现实环境积极互动的领域 (如强化学习)，进展要比依靠被动收集数据的领域 (如NLP) 慢得多。例如，在机器人领域，由于 “训练数据不足” [350]，一些资金最好的机器学习研究实验室关闭了他们的机器人项目，更多地关注基于爬行互联网数据训练的生成图像和语言模型。

此外，对模拟数据的需求的一个难点是论文之间缺乏一致性。作者可以很容易地创建新的或修改现有的模拟，为他们特定的设置/方法的经验验证量身定制，这可能不能推广到其他设置。

乐观的看法是，缺乏基准只是由于该领域处于起步阶段，更多的 RCT 数据集和模拟器将减缓因果机器学习方法的进展。大约十年前，类似的问题存在于 (深度) 强化学习领域，这与章节 7 讨论的因果机器学习有一些相似之处。与此同时，强化学习模拟器为击败桌游世界冠军铺平了道路 [351,352]，在雅达利 (Atari) 中实现超人的表现 [353]，在星际争霸 II 中达到特级大师级别 [354]，在重症监护中治疗败血症 [355]，或驾驶平流层气球 [356]。

10.2.3 缺乏软件

大多数开源机器学习软件包都专注于学习观察分布。自动微分框架如 PyTorch [357]、Tensorflow [358] 和 JAX [359] (包括 Flax [360] 和 Haiku [361]) 与模型库如Transformers [362]、timm [363] 或 PyG [364] 相结合，促进了模型管道的快速原型开发。导入数据集、最先进的 (预先训练的) 模型和启动训练循环可以在几行代码中完成。

不幸的是，通常为因果机器学习和 SCM 设计的包要少得多。例如，大多数因果估计识别是手动执行的，尽管例如 Xia 等人 [365] 开发了一种算法，可以自动验证可微 SCM 的可识别性。在撰写本文时，我们还不知道有软件库提供 API 用于方便的识别测试、操作 SCM 或导入因果基准 (章节 9) 以及预训练的 SCM 以促进新研究思路的进展。

10.3 丑的

10.3.1 缺乏与非因果方法的比较

我们注意到，有几篇因果机器学习论文缺乏与解决非常相似 (如果不相同) 问题的非因果方法的实验比较。虽然方法可能不同，例如，取决于是否涉及因果估计，但其中一些方法声称可以提高非因果指标的性能，例如预测问题的准确性或强化学习设置中的样本效率。这种趋势损害了进步的衡量标准和严谨的研究以及必须在越来越多的方法之间进行选择的从业者。

我们已经发现这个问题的迹象之一是不变性学习 (章节 3.1)。其中一些方法的动机是改进模型对 (看不见的) 分布外 OOD 数据的泛化。这些工作并没有将他们的方法与典型的领域概化方法进行比较，例如在 Gulrajani 和 Lopez-Paz [366] 中讨论的方法。

另一个领域是基于因果模型的强化学习 (章节 7.3)。Sontakke 等人 [211] 在章节 7.4 中提出学习解纠缠潜伏任务嵌入，认为这些方法比以前的 (非因果) 潜伏任务嵌入方法更具解释性，后者使用 Hi-Param MDPs [212] 和 BAMDPS [266,367] 的形式定义其设置。在实验中，他们将他们的代理与没有访问任何任务嵌入的基线 (不包括Hi-Param MDP和BAMPD方法 (例如[83,213])) 的样本效率进行比较。Zhang 等人 [214] (见章节 7.4) 认为，与常见的多任务强化学习方法相比，他们的方法对任务之间的关系做出了更强的假设。然而，在他们的实验中，他们没有与任何多任务强化学习方法进行比较 (例如 [213,272,368])，只与单一环境基线和不同的不变学习目标进行比较。Mutti 等人 [218] 的目标是学习一种能够系统地概括整个世界的代理，即无限组可能的 MDP 任务 (章节 7.4)。在他们的实验中，他们评估了他们的方法如何接近最优值函数，但没有与非因果模型进行比较。

11.相关工作

11.1 其他调研

Schölkopf [369] 讨论了机器学习和图形因果推理之间的联系，同时介绍了因果关系的概念。Schölkopf 等人 [11] 回顾了因果推理的基本概念，并将它们与机器学习的开放问题联系起来，特别关注表示学习。它们突出了当前深度学习系统中的两个问题 : 对分布变化的鲁棒性以及学习的可重复使用和模块化机制。

Feder 等人 [370] 研究了 NLP 和因果关系的交叉，并认为因果形式主义可以使 NLP 方法更加鲁棒和可理解。他们从 NLP 文献中列出了促使这一主张的三个问题 : 纯粹的关联模型可能 (i) 抓住虚假的相关性 (“捷径”)，无法在OOD设置中推广 (例如 [371])；(ii) 在用户组之间表现出不可接受的性能差异 (例如 [315])；(iii) 难以理解，无法纳入高风险决策 (例如[372])。这些缺点中的每一个都可以通过因果关系潜在地解决 : (i) 对观察结果和标签之间因果关系的了解揭示了虚假的相关性，并减轻了对它们的预测依赖；(ii) 因果关系为公平条件的推理提供了一种语言；(iii) 解释预测的任务可以自然地以反事实的形式表述。虽然我们在这次调查中也会涉及虚假的相关性、公平性和可解释性，但我们通过讨论其他几个应用了因果关系的任务和数据模式来补充这些观点，例如生成建模和强化学习。

Cheng 等人 [373] 讨论了因果关系如何应对社会责任人工智能中的伦理挑战。表面上，他们专注于七种因果推理工具；其中一些我们已经在第二章讨论过了 (例如 do-操作或反事实分析)，还有一些我们已经忽略了 (例如中介分析或倾向评分)。

11.2 用于因果推断的机器学习

本次调查的重点是使用因果关系理论来解决常见的机器学习问题，并提供新的视角。机敏的读者可能会对另一个方向的研究感到好奇，即为了回答因果问题而使用机器学习。我们确实发现，人们对这一截然相反的工作的兴趣也在增长 : 我们观察到许多研究建议使用现代表示学习技术来估计和回答因果问题，如因果效应。为了完整起见，我们简要列出了两种常见因果推理任务的最新进展 : 因果效果估计和因果发现。

11.2.1 因果关系估计

从观测数据中估计因果效应是许多领域的一个基本问题。在许多情况下，我们想要宣称因果关系而不仅仅是关联。在这种情况下，监督学习方法面临两个挑战 : (i) 缺少干预，即我们只观察每个个体的一种治疗，这一事实意味着模型必须在没有获得基本真相的情况下外推到新的治疗；(ii) 混合变量影响治疗分配和结果，因此从观察到干预的外推需要假设。有关治疗效果估计的文献讨论了如何构建克服这些问题的模型。

11.2.1.1 观察到的混杂因素

如果观察到混杂因素，处理效果是可识别的。然而，根据处理效果的结构 (例如平滑性或稀疏性 [374])，不同的估计量表现不同。例如，Chernozhukov 等人 [187] 和 Künze l等人 [375] 表明，针对所有观察结果训练的简单回归模型很容易导致有偏见的估计；Shalit 等人 [376] 和 Shi 等人 [377] 对神经网络模型进行了类似的论证。因此，大部分处理效果估计工作集中于模型正则化，以便正确提取数据中的因果关系。

利用现代机器学习技术进行因果效应估计的一个工作方向是元学习器 (或插件学习器) [375,378] : 它们将效果估计分解为多个子问题 (所谓的麻烦组件)，每个子问题都可以使用任何现代机器学习技术解决 [18,187,375,379]。

我们将重点介绍一些利用神经网络的技术。对于二元处理，Curth 和 van der Schaar [380] 使用神经网络实现了多种元学习策略，并得出结论，理论最优估计器可能在有限简单制度下表现不佳。对于标量连续处理，Nie 等人 [381] 建议使用样条来保持处理区域的连续性。对于高维处理，Kaddour 等人 [18] 提出了一种学习倾向特征的元学习策略。对于任意处理，Zhang 等人 [382] 利用变压器网络 [74] 构建了一个灵活的体系结构。

11.2.1.2 未观察到的混杂因素

主要有三种策略来处理未观察到的混杂(章节 2.5) : (1) 基于附加假设估计边界，也称为部分识别 [383,384]，(2) 对混杂因素影响的强度进行敏感性分析，以做出真正的估计，并与我们的估计有很大区别 [385,386]，(3) 利用其他观测变量，如工具变量 [387] 或代理变量 [388]。主要针对第三类，研究人员已经开发了机器学习技术，如神经网络或核方法。

代理变量 : 代理变量包含混杂器的相关侧信息，理想情况下，足够完全恢复混杂器 [388,389,390,391]。例如，我们可能对估计机票价格对销售额的影响感兴趣 [391]。作为一个隐藏的混杂因素，人们的飞行欲望，例如受假日季节的驱使，影响了机票销售的数量和顾客愿意支付的价格。对于这种需求，一个合适的代理变量可能是机票预订页面的查看次数。

工具变量回归 : 另一类方法依赖于工具变量 I (通常称为 instrument) [392, 393, 394, 395, 396]。要使一种工具有效，必须满足三个条件 : (i) 它独立于隐藏的干扰因素 $i\perp\!\!\!\!\perp C$ ；(ii)它并非独立于治疗， $I\not\perp\!\!\!\!\!\perp T$ ；(iii) 它不受治疗结果的影响。在上面的机票例子中，我们可以将油价等供给转移因素视为有效工具，因为它只通过价格影响销售，从而确定了客户的需求 [393]。

11.2.2 因果发现

因果发现是试图从观察和/或介入数据中恢复 DGP 潜在因果结构的方法的总称。根据人们愿意做出的假设，输出范围从部分节点排序到完整的 SCM (假设线性结构方程)。

通常，因果发现是一项困难的任务，主要是由于 (i) 结构可识别性和 (ii) 计算复杂性。可识别性挑战意味着，在仅给出观测数据的情况下，通常无法识别因果DAG $\mathcal{G}$ ，因为存在一组可能生成数据 [12] 的图。其次，由于解空间的组合性质，其大小随变量的数量呈超指数增长 [397]。

为了这个调查的目的，了解因果发现的目标就足够了。我们将热衷于寻找这些方法更多细节的读者指向三大类 : (i) 组合方法 [398,399,400,401,402,403,404]，(ii) 连续松弛方法 [405,406,407,408,409,410,411]，以及 (iii) 基于排列的方法 [412,413,414,415]。此外，Squires 和 Uhler [401]， Vowels 等人 [416] 提供了出色的调查。

12.总结

我们总结了一些主要发现 :

与统计推理或概率推理相反，因果推理 (章节 2) 允许我们对介入性和反事实的估计进行推理。
我们认为这些估计有利于机器学习研究的某些领域，即 :

(a) 因果监督学习 (章节 3) 通过学习不变的特征或机制来改进预测泛化，这两种方法都旨在消除模型对伪关联的依赖。未来的工作应该研究学习不变性的目标基准测试、对抗鲁棒性的联系以及元学习，以及额外监督信号的潜在利用。

(b) 因果生成建模 (章节 4) 支持从介入分布或反事实分布中采样，分别自然地执行原则可控生成或样本编辑任务。所有现有的方法都学习结构作业；有些人还从数据中推断因果结构。对于不同的应用程序应该考虑什么级别的抽象，如何将赋值学习扩展到更大的图，以及何时反事实生成的数据扩充是有效的 (以及何时无效)，这些问题还没有得到充分的探讨。

(c) 因果解释 (章节 5) 解释模型预测，同时解释模型机制或数据生成过程的因果结构。方法可以分为特征属性，它量化了输入特征的因果影响，或对比解释，它代表了实现预期结果的改变实例。到目前为止，还不清楚如何最好地统一这两类方法，扩大解释，使它们对分布变化具有健壮性，对攻击者具有安全性和私密性，以及如何规避鲁棒性与追索权敏感性之间不可避免的权衡。

(d) 因果公正性 (章节 6) 为评估模型的公正性以及在基础数据的因果关系中减少有害差异的标准铺平了道路。这些标准要么依赖于反事实分布，要么依赖于介入分布。未来的工作应该阐明平等的替代方案，标准预测设置之外的公平，较弱的可观察性假设 (例如隐藏的混杂)，以及社会类别干预主义观点的有效性。

(e) 因果强化学习 (章节 7) 描述了考虑决策环境的显式因果结构的强化学习方法。我们将这些方法分为七类，并观察到它们声称的优于非因果方法的优点包括反解构 (导致更好的泛化)、内在奖励和数据效率。开放的问题表明，一些形式主义可能是统一的，离线数据的分解在离线强化学习部分中很大程度上没有解决，基于反事实做出决策的代理可能会提供更多的好处。

(f) 模态-应用 : 我们回顾了以前介绍的和模态特定的原则如何提供机会来改进计算机视觉、自然语言处理和图形表示学习设置。
我们回顾了为因果机器学习方法设计的现有因果基准，包括基本事实的因果干预和/或反事实。
我们讨论了使用因果机器学习方法的一些好处，以及无法测试的假设、缺乏基准测试、缺乏软件以及缺乏与非因果方法的比较等问题。
我们谈到了以前的两类相关工作；其他因果机器学习调查以及利用机器学习来推断因果估计的研究。

因果机器学习调研综述(下)