The Risks of Invariant Risk Minimization 论文阅读

254 阅读26分钟

0 论文信息

1 背景介绍

  在本工作中,我们在一个相当自然和通用的模型下,对 IRM 目标下的分类进行了第一次形式化分析,该模型仔细地形式化了原始工作背后的直觉。我们的结果表明,尽管受到不变预测的启发,但通常可以预期该目标的性能不会比 ERM 好。在线性设置中,我们提出了简单、精确的条件,在这些条件下求解最优性成功,或者更常见的是,在恢复最优不变预测器时失败。我们还展示了另一个主要的失败案例——在温和的条件下,存在一个仅使用非不变特征的可行点,并且实现了比最优不变预测器更低的经验风险;因此,它看起来是一个更有吸引力的解决方案,但它对非不变特征的依赖意味着它无法泛化。作为推论,我们提出了类似的设置,其中所有最近建议的 IRM 替代方案同样失败。此外,我们展示了非线性方案中的第一个结果 : 我们证明了一个分类器的存在,它具有指数级小的次优性,但它在很大程度上依赖于大多数测试输入的非不变特征,导致在分布上的性能比偶然性差与训练环境有足够的不同。这些发现强烈表明,现有的高维潜变量模型 ICP 方法并不能完全实现其既定目标,未来的工作将受益于更正式的处理。

2 模型和非正式结果

  我们考虑一个具有显式分离不变特征 zcz_c 和环境特征 zez_e (“非不变”) 的扫显式分离的 SEM,zcz_c 与标签的联合分布对所有环境都是固定的,而 zez_e (“非不变”) 的分布可能会变化。这种选择是为了确保我们的模型恰当地形式化了不变预测技术 (如 IRM) 背后的直觉,它的目标是通过仅恢复不变特征来确保泛化预测器——我们推迟了对这些目标的详细描述,直到我们引入了必要的术语。

  我们假设数据来自一组 EE 训练环境 E={e1,e2,...,eE}\mathcal{E}= \{e1,e2,...,e_E\},并且我们知道每个样本是从哪个环境中绘制的。对于给定的环境 e,数据的定义过程如下 : 首先,按照固定概率绘制标签 y{±1}y\in\{\pm 1\} :

y={1w.p.η1otherwise(1)y=\begin{cases} 1 & \text{w.p.} \eta\\ -1 & \text{otherwise} \end{cases}\tag{1}

  其次,根据高斯分布绘制不变特征和环境特征 :

zcN(yμc,σc2I),zeN(yμe,σe2I)(2)z_c \sim \mathcal{N}(y\cdot\mu_c,\sigma_c^2I),z_e \sim \mathcal{N}(y\cdot\mu_e,\sigma_e^2I)\tag{2}

  其中 μcRdc,μeRde\mu_c \in \mathbb{R}^{d_c},\mu_e\in \mathbb{R}^{d_e}——通常,对于复杂的高维数据,我们期望 EdcdeE\ll d_c \ll de。最后,观察 x 是作为潜在特征的函数生成的 :

x=f(zc,ze)(3)x = f(z_c,z_e)\tag{3}

图 1.描述我们模型的贝叶斯网络。阴影表示观察到变量。

  完整的数据生成过程如图 1 所示。我们假设 f 是单射的,因此原则上可以从观察中恢复潜在特征,即存在一个函数 Φ\Phi 使得 Φ(f(zc,ze))=[zc,ze]T\Phi(f(z_c,z_e))=[z_c,z_e]^T。我们注意到这是我们对 f 的唯一假设,即使它是非线性的。此外,请注意,我们将类条件均值建模为直接对立面仅仅是为了清楚起见,因为它大大简化了计算。我们的证明都不需要这个条件 : 可以直接将我们的结果扩展到任意均值,并且非线性设置也允许任意协方差。事实上,我们对非线性 f 的证明技术可以应用于任何充分集中于其均值的分布 (例如,亚高斯分布)。我们将联合分布和边际分布写为 pe(x,y,zc,ze)p^e(x,y,z_c,z_e)。当从上下文中清楚时,我们省略了具体的论点。

模型备注 这种模型自然而灵活;它概括了一些现有的模型,用于分析存在对抗性分布偏移或非不变相关性的学习。该模型的基本方面是不变参数 η,μc,σc2,f\eta,\mu_c,\sigma^2_c,f 在环境中的稳定性—— μe,σe\mu_e,\sigma_e 对环境的依赖性允许变化的分布,而真正的因果过程保持不变。在此,我们作几点澄清:

  • 我们不对模型参数施加任何约束。特别是,我们不假设环境参数的先验。μc,σc2\mu_c,\sigma^2_c 对所有环境都是相同的,因此下标表示不变的关系。相比之下,由于一些符号的滥用,环境下标被用来表示对环境的依赖性和环境本身的指标(例如,μi\mu_i 表示特定于环境 i 的平均值)。
  • 虽然我们已经将模型框定为 y 导致 zcz_c,但因果关系也可以很容易地从另一个方向来看。y 的对数比是 zcz_c 的线性函数,这与 logistic 回归相匹配,回归向量 βc=2μc/σc2\beta_c=2\mu_c/\sigma^2_c,偏差 β0=logη1η\beta_0=\log\frac{\eta}{1-\eta}。我们提出上述模型是为了强调 y 和 zcz_czez_e 之间的因果关系是先天不可区分的,因为我们相信这个方向更直观。

  我们考虑从每个环境中获得无限样本的设置;这使我们能够分隔目标本身的行为,而不是有限样本效应。在观察来自该模型的样本后,我们的目标是学习特征提取器 Φ\Phi 和分类器 β^\hat{\beta} 以最小化不可见的环境 e 的风险 :

Re(Φ,β^)=E(x,y)pe[(β^TΦ(x),y)]\mathcal{R}^e(\Phi,\hat{\beta})=\mathbb{E}_{(x,y)\sim p^e}[\ell(\hat{\beta}^T\Phi(x),y)]

  函数 \ell 可以是任何适合于分类的损失 : 在这项工作中,我们考虑了 logistic 和 0-1 损失。请注意,我们不希望最小化环境预期中的风险;这已经通过 ERM 或分布式鲁棒优化 (DRO) 完成。相反,我们希望在忽略环境特征的同时提取和回归不变特征,这样我们的预测器可以推广到所有不可见的环境,而不管它们的参数。换句话说,重点是在最坏情况下最小化风险。我们将任意分布位移下最坏情况风险最小的预测器称为最优不变预测器。为了正式地讨论这个问题,我们精确地定义了这个术语的含义。

定义 1 在公式 1-3 描述的模型下,最优不变预测器是由 a) 恢复不变特征的特征器和 b) 相对于这些特征最优的分类器定义的预测器 :

Φ(x):=[I000]f1(x)=[zc], β^:=[βcβ0]:=[2μc/σc2logη1η]\Phi^*(x):=\left[\begin{array}{ll} I & 0 \\ 0 & 0 \end{array}\right] \circ f^{-1}(x)=\left[z_c\right],\ \hat{\beta}^*:=\left[\begin{array}{l} \beta_c \\ \beta_0 \end{array}\right]:=\left[\begin{array}{l} 2 \mu_c / \sigma_c^2 \\ \log \frac{\eta}{1-\eta} \end{array}\right]

  注意,这个定义与 Arjovsky 等人在 IRM 中的定义 3 非常相似;唯一的区别是,这里的最优不变预测器必须恢复所有不变特征。由于 Arjovsky 等人没有设定一个数据模型,因此恢复“所有不变特征”的概念并没有很好地定义它们的设置;从技术上讲,输出空集的特征器将引出一个不变的预测器,但这并不满足上述定义。分类器 β^\hat{\beta}^* 在不变量特征方面是最佳的,因此它在不使用环境特征的情况下实现了可能的最小风险。观察到最优不变预测器不同于贝叶斯分类器;贝叶斯分类器使用的环境特征是标签的信息,但不是不变的;最优不变预测器显式地忽略了这些特征。

  有了定义好的模型,我们可以大致地展示我们的结果;我们推迟了正式的陈述,以在下一节中首先给出 IRM 目标的背景。在稍微滥用符号的情况下,我们通过将其参数化的元组 Φ,β^\Phi,\hat{\beta} 确定了一个预测器。首先,我们证明了 IRM 的有用性表现出一种依赖于 EEded_e 的“阈值”行为 :

定理 2.1 (非正式的,线性的) 对于线性的 ff,考虑求解 IRM 目标来学习具有不变最优分类器 β^\hat{\beta} 的线性 Φ\Phi。如果 E>deE>d_e,则 Φ,β^\Phi,\hat{\beta} 是最优不变预测因子;它只使用不变的特征,并推广到所有具有 minimax-optimal 风险的环境。如果 EdeE\le d_e,则 Φ,β^\Phi,\hat{\beta} 依赖于非不变特征。

  事实上,当 EdeE\le d_e 时,甚至可以学习一个仅依赖于环境特征的分类器,该分类器在训练环境上的风险比最优不变预测器低 :

定理 2.2 (非正式的,线性的) 对于线性的 ffEdeE\le d_e,存在一个线性预测器 Φ,β\Phi,\beta,它只使用环境特征,但比最优不变预测器获得更低的风险。

  最后,在非线性情况下,我们表明 IRM 失败,除非训练环境大致 “覆盖” 了可能的环境空间,因此它的行为类似于 ERM :

定理 2.3 (非正式的,非线性的) 对于任意的 f,存在一个非线性预测器 Φ,β^\Phi,\hat{\beta} 在惩罚目标下近似最优,并且在训练分布上近似与最优不变预测器一致。然而,对于任何测试环境,其均值与训练均值完全不同,这个预测器将等价于几乎所有测试点上的 ERM 解决方案。对于环境特征与标签的相关性相反的测试分布,这个预测器的准确度几乎为 0。

扩展到其他目标 许多后续工作提出了替代 IRM 的方法,其中一些将在下一节中介绍。尽管这些目标在各种基线上表现得更好,但很少有正式的保证,也没有超出线性情况的结果。由于它们的集体相似性,我们可以很容易地推导出将本文中的每个定理扩展到这些目标的推论,证明它们都有相同的缺点。附录 E 包含本工作中提出的每个结果的例子推论。

3 IRM 及其替代方案的背景

  在训练过程中,分类器将学习利用训练数据中的特征和标签之间的相关性来进行预测。如果相关性随环境变化,它可能不会出现在未来的测试分布中——更糟糕的是,它可能是反向的——损害分类器的预测能力。IRM 是最近提出的一种学习环境不变表示以促进不变预测的方法。

IRM 目标 IRM假定存在一个特征嵌入器 Φ\Phi,这样在这些特征之上的最佳分类器对于每个环境都是相同的。作者认为,这样的函数将只使用不变特征,因为非不变特征将具有与标签不同的联合分布,因此在它们上面使用固定的分类器在所有环境中都不是最优的。要了解这个 Φ\Phi,IRM 的目标是以下约束优化问题 :

minΦ,β^1EeERe(Φ,β^) s.t. β^argminβRe(Φ,β)eE(4)\min _{\Phi, \hat{\beta}} \frac{1}{|\mathcal{E}|} \sum_{e \in \mathcal{E}} \mathcal{R}^e(\Phi, \hat{\beta}) \quad \text { s.t. } \quad \hat{\beta} \in \underset{\beta}{\arg \min } \mathcal{R}^e(\Phi, \beta) \quad \forall e \in \mathcal{E}\tag{4}

  该双层优化具有高度非凸性,求解困难。为了找到近似解,作者考虑了一种朗格朗日形式,其中关于约束的次最优性表示为每个内部优化问题的梯度的平方范数 :

minΦ,β^1EeE[Re(Φ,β^)+λβ^Re(Φ,β^)22](5)\min _{\Phi, \hat{\beta}} \frac{1}{|\mathcal{E}|} \sum_{e \in \mathcal{E}}\left[\mathcal{R}^e(\Phi, \hat{\beta})+\lambda\left\|\nabla_{\hat{\beta}} \mathcal{R}^e(\Phi, \hat{\beta})\right\|_2^2\right]\tag{5}

  假设内部优化问题是凸的,实现可行性相当于惩罚项等于 0。因此,如果我们设 λ=\lambda=\infty,式子 4 和 5 是等价的。

选择目标 IRM 的动机是一个特征函数 Φ\Phi 的存在,这样 E[yΦ(x)]\mathbb{E}[y|\Phi(x)] 是不变的。后续工作提出了这一目标的变体,基于 p(yΦ(x))p(y|\Phi(x)) 的不变性的严格强要求。Krueger 等人建议对风险的方差进行惩罚,而 Xie 等人给出了相同的目标,但取方差的平方根。许多论文提出了类似的替代方案。这些目标是令人信服的-事实上,很容易表明,最优不变预测器构成了这些目标的每个静止点 :

命题 3.1 假设根据式 1-3 生成观测数据。那么 (参数化) 最优不变预测器 Φ,β^\Phi^*,\hat{\beta}^* 是式 4 的一个平稳点。

证明 回顾IRM目标 :

minΦ,βE(x,y)p(x,y)[logσ(yβ^TΦ(x))] subject to β^E(x,y)pe[logσ(yβ^TΦ(x))]=0.eE.\begin{array}{ll} \min _{\Phi, \beta} & \mathbb{E}_{(x, y) \sim p(x, y)}\left[-\log \sigma\left(y \cdot \hat{\beta}^T \Phi(x)\right)\right] \\ \text { subject to } & \frac{\partial}{\partial \hat{\beta}} \mathbb{E}_{(x, y) \sim p^e}\left[-\log \sigma\left(y \cdot \hat{\beta}^T \Phi(x)\right)\right]=0 . \forall e \in \mathcal{E} . \end{array}

  具体来说,我们将 Φ\Phi 表示为某个参数化函数 Φθ\Phi_\theta,然后对其参数 θ\theta 进行优化。logistic 回归的负对数似然对 β\beta 系数的导数为 :

β^[logσ(yβ^TΦθ(x))]=(σ(β^TΦθ(x))1{y=1})Φθ(x)\frac{\partial}{\partial \hat{\beta}}\left[-\log \sigma\left(y \cdot \hat{\beta}^T \Phi_\theta(x)\right)\right]=\left(\sigma\left(\hat{\beta}^T \Phi_\theta(x)\right)-1\{y=1\}\right) \Phi_\theta(x)

  假设我们恢复真不变特征 Φθ(x)=[zc0]\Phi_\theta(x)=\left[\begin{array}{l} z_c \\ 0 \end{array}\right] 和系数 β^=[β0]\hat{\beta}=\left[\begin{array}{l} \beta \\ 0 \end{array}\right] (换句话说,我们允许引入新特征)。那么 IRM 约束变成 :

0=β^E(x,y)pe[logσ(yβ^TΦθ(x))]=Zpe(zc)y{±1}pe(yzc)β^[logσ(yβTzc)]dzc=Zpe(zc)Φθ(x)[σ(β^Tzc)(σ(β^Tzc)1)+(1σ(β^Tzc))σ(β^Tzc)]dzc.\begin{aligned} 0 &=\frac{\partial}{\partial \hat{\beta}} \mathbb{E}_{(x, y) \sim p^e}\left[-\log \sigma\left(y \cdot \hat{\beta}^T \Phi_\theta(x)\right)\right] \\ &=\int_{\mathcal{Z}} p^e\left(z_c\right) \sum_{y \in\{\pm 1\}} p^e\left(y \mid z_c\right) \frac{\partial}{\partial \hat{\beta}}\left[-\log \sigma\left(y \cdot \beta^T z_c\right)\right] d z_c \\ &=\int_{\mathcal{Z}} p^e\left(z_c\right) \Phi_\theta(x)\left[\sigma\left(\hat{\beta}^T z_c\right)\left(\sigma\left(\hat{\beta}^T z_c\right)-1\right)+\left(1-\sigma\left(\hat{\beta}^T z_c\right)\right) \sigma\left(\hat{\beta}^T z_c\right)\right] d z_c . \end{aligned}

  由于在不同的环境中 β^\hat{\beta} 是恒定的,这个约束显然对每个环境都是满足的,因此也是训练数据作为一个整体的 β^\hat{\beta} 的最小值。

  现在考虑对特征函数 Φθ\Phi_\theta 的导数 :

θ[logσ(yβ^TΦθ(x))]=(σ(β^TΦθ(x))1{y=1})θβ^TΦθ(x).\frac{\partial}{\partial \theta}\left[-\log \sigma\left(y \cdot \hat{\beta}^T \Phi_\theta(x)\right)\right]=\left(\sigma\left(\hat{\beta}^T \Phi_\theta(x)\right)-1\{y=1\}\right) \frac{\partial}{\partial \theta} \hat{\beta}^T \Phi_\theta(x) .

  那么损失对这些参数的导数是 :

Zpe(zc)(θβ^TΦθ(x))[σ(βTzc)(σ(βTzc)1)+(1σ(βTzc))σ(βTzc)]dzc=0\int_{\mathcal{Z}} p^e\left(z_c\right)\left(\frac{\partial}{\partial \theta} \hat{\beta}^T \Phi_\theta(x)\right)\left[\sigma\left(\beta^T z_c\right)\left(\sigma\left(\beta^T z_c\right)-1\right)+\left(1-\sigma\left(\beta^T z_c\right)\right) \sigma\left(\beta^T z_c\right)\right] d z_c=0

  因此,最优不变预测器也是一个关于特征映射参数的平稳点。

  其他目标的最优不变预测器的平稳性是一个微不足道的推论。然而,在接下来的章节中,我们将证明这样的结果是具有误导性的,并且有必要进行更仔细的调查。

4 线性体制下 IRM 的难点

  Arjovsky 等人在提出 IRM 的工作中,提出了所需训练环境数量上限的具体条件,使可行线性特征器 Φ\Phi 具有不变的最优回归向量 β^\hat{\beta}。我们的第一个结果在本质上是类似的,但在分类设置中提出了一个更强大的(和简化的)上界,以及一个匹配的下限 : 我们证明了观察大量的环境——在环境特征的数量上是线性的——是在线性体系中泛化的必要条件。

定理 4.1 (线性情况) 假设 ff 是线性的。假设我们观察 EE 个训练环境。然后保持以下状态 :

  1. E>deE>d_e。考虑在 IRM 目标式 4 下可行的任意线性特征器 Φ\Phi,且不变的最优分类器 β^0\hat{\beta}\ne0,并写 Φ(f(zc,ze))=Azc+Bze\Phi(f(z_c,z_e))=Az_c+Bz_e。那么在轻度非简并条件下,认为 B=0B=0。因此,对于所有可能的环境,β^\hat{\beta} 是最佳的分类器。
  2. EdeE\ge d_e 且环境均值 μe\mu_e 线性无关时,存在线性的 PhiPhi-其中 Φ(f(zc,ze))=Azc+Bze\Phi(f(z_c,z_e))=Az_c+Bz_e,其中 rank(B)=de+1Erank(B)=d_e+1−E,在 IRM 目标下是可行的。此外,该 Φ\Phi 及其对应的最优 β^\hat{\beta} 的logistic 风险和 0-1 风险均严格低于最优不变预测器。

  与 Arjovsky 等人类似,不满足定理 4.1 的环境集在任何绝对连续的密度对环境参数下的测度为零。由于最优不变预测器是关于不变特征的贝叶斯,通过数据处理不等式,预测器实现较低风险的唯一方法是依赖于环境特征。因此,定理 4.1 直接暗示,当 EdeE\le d_e 时,全局最小值必然使用这些非不变特征,因此不能普遍推广到不可见的环境。另一方面,在(可能不太可能的) E>deE>d_e 的情况下,任何可行解都会泛化,并且最优不变预测器在所有此类预测器中具有最小 (和最大极小) 风险 :

推论 4.2 对于 logistic 和 0-1 损失,最优不变预测因子是 IRM 目标的全局最小值,当且仅当 E>deE>d_e

  让我们将我们的理论发现与 Arjovsky 等人的研究结果进行比较。假设观察值 x 位于 Rd\mathbb{R}^d。粗略地说,他们的定理说,对于一个秩为 r 的学习过的 Φ\Phi,具有不变的最优系数 β^\hat{\beta},如果训练集包含 dr+d/rd-r+d/r 个“非退化”环境,那么 β^\hat{\beta} 将对所有环境都是最优的。这个结果有几个重要的问题 : 首先,他们没有将 Φ\Phi 的排名与他们的实际目标联系起来;因此,他们的理论激励了目标,但没有为其解决方案提供任何性能保证。接下来,观察当 x 是高维的(即 dde+dcd\gg d_e+d_c)-在这种情况下 Φ\Phi 将是相对低秩的 (即 rde+dcr\ge d_e+d_c)-他们的结果需要 Ω(d)\Omega(d) 环境,这是极端的。例如,考虑嵌入在非常高维空间中的低维流形上的图像。即使当 d=dc+ded=d_c+d_e 时,精确恢复 zcz_c 的“理想” Φ\Phi 也会有 dcd_c 的秩,因此它们的不变性条件需要 E>de+de/dcE>d_e+d_e/d_c,这是比我们的条件更强的要求;这种不平等似乎也不太可能在大多数现实世界中存在。最后,它们没有给出所需环境数量的下限——在此工作之前,当它们的条件不满足时,没有 IRM 目标性能的现有结果。我们还进行了一个简单的综合实验来验证我们的理论结果,根据我们的模型抽取样本,学习具有 IRM 目标的预测器。我们现在给出定理第二部分的构造证明,当 E=deE=d_e 时 :

证明草图 由于 f 在其范围内具有逆,因此我们可以将 Φ\Phi 定义为直接在潜在值 [zc,ze][z_c,z_e] 上的线性函数。具体来说,定义 Φ(x)=[zc,pTze]\Phi(x)=[z_c,p^Tz_e]。这里,p 是一个单位范数向量,使得 eE,pTμe=σe2μ~\forall e\in E,p^T\mu_e=\sigma^2_e\tilde{\mu}μ~\tilde{\mu} 是一个固定的标量,它取决于 μe,σe2\mu_e,\sigma^2_e 的几何形状——只要均值线性无关,这样的向量就存在。观察到这个 Φ\Phi 也有所需的等级。由于这是一个多元高斯的线性函数,每个环境的非不变潜在的标签条件分布有一个简单的封闭形式 :pTzeyN(ypTμe,p22σe2)=dN(yσe2μ~,σe2)p^T z_e \mid y \sim \mathcal{N}\left(y \cdot p^T \mu_e,\|p\|_2^2 \sigma_e^2\right) \stackrel{d}{=} \mathcal{N}\left(y \cdot \sigma_e^2 \tilde{\mu}, \sigma_e^2\right)

  为了分离两个高斯,最优线性分类器是 Σ1(μ1μ0)\Sigma^{−1}(\mu_1-\mu_0)——这里,pTzep^Tz_e 上的最优分类器正好是 2μ~2\tilde{\mu},它不依赖于环境 (zcz_c 的最优系数也不依赖于环境)。尽管分布因环境而异,但最佳分类器是相同的!因此,Φ\Phi 直接取决于环境特征,但每个环境的最优回归向量 β\beta 是恒定的。要查看它比最优不变预测器具有更低的风险,请注意,该分类器就其特征而言是贝叶斯分类器,并且最优不变预测器使用这些特征的严格子集,因此它的预测信息较少。 \Box

一个纯粹的环境预测器 上面证明草图中 μ~\tilde{\mu} 的精确值代表了这个非不变特征与标签的相关性有多强。从理论上讲,实现较低目标值的预测器可以以非常小的幅度做到这一点——结合来自非不变特征的任意少量信息就足够了。这个结果不会那么令人惊讶,因为实现低经验风险仍然可以确保我们“接近”最优不变预测器。我们的下一个结果表明情况并非如此 : 存在一个可行的解决方案,它仅使用环境特征,但在所有 eEe\in \mathcal{E} 上表现优于最佳不变预测器,其中 μ~\tilde{\mu} 足够大。

定理 4.3 假设我们观察 EdeE\le d_e 环境,使得所有环境均值是线性独立的。那么存在一个可行的 Φ,β^\Phi,\hat{\beta},它只使用环境特征并且在每个环境 e 上实现比最优不变预测器更低的 0-1 风险,使得 σeμ^>σe1μe2\sigma_e\hat{\mu}>\sigma_e^{-1}\lVert\mu_e\rVert_22σeμ~σc1μcβ02\sigma_e\tilde{\mu}\sigma_c^{-1}\lVert\mu_c\rVert\ge|\beta_0|

5 IRM 在非线性体制中的失败

  我们已经证明 OOD 泛化在线性情况下是困难的,但在足够的训练环境下是可以实现的。我们的结果——以及 Arjovsky 等人的结果——通过观察每个环境降低解决方案的“自由度”来直观地进行,这样,如果看到足够多的环境,只有不变的特征仍然可行。在非线性情况下,尚不清楚如何捕捉这种限制“自由度”的想法——事实上,我们的结果表明这种直觉是完全错误的。相反,我们表明该解决方案仅适用于与训练环境足够相似的测试环境。因此,这些目标对 ERM 或 DRO 没有真正的改进。

  潜在变量的非线性变换使得难以表征最优线性分类器,这使得对式 4 的约束解的推理变得困难。相反,我们将注意力转向式 5,即惩罚 IRM 目标。在本节中,我们展示了 IRM 在非线性机制中的一个基本缺陷 : 除非我们观察到足够多的环境来“覆盖”非不变特征的空间,否则看起来不变的解决方案在新的测试分布上仍然表现不佳.我们从关于系数向量 β^\hat{\beta} 的最优性的定义开始 :

定义 2 对于 0<γ<10<\gamma<1,对于标签条件特征分布 zN(yμ,Σ)z\sim\mathcal{N}(y\cdot\mu,\Sigma),系数向量 β^\hat{\beta}γ\gamma-接近最优的,如果

β^Tμ(1γ)2μTΣ1μ\hat{\beta}^T \mu \geq(1-\gamma) 2 \mu^T \Sigma^{-1} \mu

  由于最优系数向量正好是 2Σ1μ2\Sigma^{-1}\muγ\gamma-接近意味着 β^\hat{\beta} 合理地与那个最优值对齐。请注意,该定义没有考虑幅度——γ\gamma-接近最优的向量集因此是一个与最优向量正交的半空间。我们在非线性情况下的结果之一使用了以下假设,即观察到的环境平均值彼此足够相似。

假设 1 存在 0γ<10\ge\gamma<1 使得非不变特征的 ERM 最优分类器

βe;ERM:=argminβ^e1EeEEzc,ze,ype[(σ(βcTzc+β^eTze+β0),y)],(6)\beta_{e ; \mathrm{ERM}}:=\underset{\hat{\beta}_e}{\arg \min } \frac{1}{|\mathcal{E}|} \sum_{e \in \mathcal{E}} \mathbb{E}_{z_c, z_e, y \sim p^e}\left[\ell\left(\sigma\left(\beta_c^T z_c+\hat{\beta}_e^T z_e+\beta_0\right), y\right)\right],\tag{6}

  对于 E 中的每个环境特征分布,γ\gamma-接近最优。

  这个假设表明环境分布足够相似,因此最佳“平均分类器”可以合理地预测每个环境。这是一个自然的期望 : 我们使用 IRM 正是因为我们期望 ERM 分类器在训练集上表现良好但无法泛化。如果环境参数足够正交,我们可能会期望 ERM 忽略在所有环境中至少不能适度预测的特征。最后,我们注意到,如果这个假设只适用于特征的一个子集,我们的结果仍然适用于边缘化它不适用的维度。

  我们现在准备在非线性状态下给出我们的主要结果。我们提出了一个简化版本,假设 σe2=1  e\sigma^2_e=1\ \ \forall e。这纯粹是为了表达的清晰;。我们在以下证明中使用了两个常数——环境均值的平均平方范数,μ22:=1EeEμe22\overline{\lVert\mu\rVert^2_2}:=\frac{1}{E}\sum_{e\in E}\lVert\mu_e\rVert^2_2;以及 ERM 最优分类器的响应变量的标准差,σERM:=βc22+βe;ERM22σe2\sigma_{\text{ERM}}:=\sqrt{\lVert\beta_c\rVert^2_2+\lVert\beta_{e;\text{ERM}}\rVert^2_2\sigma^2_e}

定理 5.1 (非线性情况,简化) 假设我们观察 E 环境 E={e1,...,eE}\mathcal{E}=\{e_1,...,e_E\},其中 σe2=1\sigma_e^2=1。然后,对于任何 ϵ>1\epsilon>1,存在一个特征化器 Φ\Phi,它与 ERM 最优分类器 β^=[βc,βe;ERM,β0]T\hat{\beta} = [\beta_c,\beta_{e;ERM},\beta_0]^T 相结合,满足以下性质,其中我们定义 pϵ:=exp{demin(ϵ1,(ϵ1)2)/8}p_\epsilon := \exp\{−d_e \min(\epsilon−1, (\epsilon−1)^2)/8\} :

  1. 式 5 中 Φϵ,β^\Phi_\epsilon,\hat{\beta} 的正则化项有界为
1EeEβ^Re(Φϵ,β^)22O(pϵ2(cϵde+μ22)),\frac{1}{E} \sum_{e \in \mathcal{E}}\left\|\nabla_{\hat{\beta}} \mathcal{R}^e\left(\Phi_\epsilon, \hat{\beta}\right)\right\|_2^2 \in \mathcal{O}\left(p_\epsilon^2\left(c_\epsilon d_e+\overline{\|\mu\|_2^2}\right)\right),

  对于某个常数 cϵc_\epsilon,它只取决于 ϵ\epsilon

  1. Φϵ,β^\Phi_\epsilon,\hat{\beta} 与训练集的至少 1pϵ1-p_\epsilon 部分上的最优不变预测器完全匹配。在剩余的输入上,它匹配 ERM 最优解。

  此外,对于任何测试分布,假设其环境均值 μE+1μ_{E+1} 离训练均值足够远 :

eE,miny{±1}μE+1yμe2(ϵ+δ)de(7)\forall e \in \mathcal{E}, \min _{y \in\{\pm 1\}}\left\|\mu_{E+1}-y \cdot \mu_e\right\|_2 \geq(\sqrt{\epsilon}+\delta) \sqrt{d_e}\tag{7}

对于某些 δ>0\delta>0,并定义 q:=2Eπδexp{δ2}q:=\frac{2E}{\sqrt{\pi}\delta}\exp\{-\delta^2\}。那么以下成立:

  1. Φϵ,β^\Phi_\epsilon,\hat{\beta} 等价于 ERM 最优预测器在至少 1-q 部分的测试分布上。

  2. 在假设 1 下,对于某些系数 {αe}eE\{\alpha_e\}_{e\in\mathcal{E}},设 μE+1=eEαeμe\mu_{E+1} =−\sum_{e\in\mathcal{E}}\alpha_e \mu_e。那么只要

eEαeμe22μc22/σc2+β0/2+σERM1γ(8)\sum_{e \in \mathcal{E}} \alpha_e\left\|\mu_e\right\|_2^2 \geq \frac{\left\|\mu_c\right\|_2^2 / \sigma_c^2+\left|\beta_0\right| / 2+\sigma_{E R M}}{1-\gamma}\tag{8}

  Φϵ,β^\Phi_\epsilon,\hat{\beta} 在新环境下的 0-1 风险大于.975−q。

  我们对这个定理中的每一个断言都有一个简单的直观的理解 :

  1. 第一个声明说,我们构建的预测器将具有一个梯度平方范数缩放为 pϵ2p^2_\epsilon,在 ded_e 上是指数小的。因此,在高维中,它将表现为目标 (5) 的一个完美合理的解。
  2. 第二种说法是,除了指数级的一小部分训练数据外,该预测器与不变最优预测器完全相同;在剩余的部分上,它与 ERM 最优解匹配,风险较低。约束优化和惩罚优化之间的对应关系表明,对于足够大的 ded_e,“假”预测器通常是首选解决方案。在有限样本设置中,我们甚至需要指数级的样本来区分两者!
  3. 第三个要求是定理的关键;它表明我们构建的这个预测器在大多数环境下将完全不能使用不变预测。回想一下,IRM 的目的是在 ERM 崩溃时,即当测试分布与训练分布相差很大时,精确地执行良好的操作。假设训练环境均值为高斯先验,它们将以高概率在 O(de)\mathcal{O}(\sqrt{d_e}) 处分离。观察到,只要 δpolylog(E)\delta\ge \text{polylog}(E), q 就会逐渐变小。第 3 部分说,IRM 不能在任何稍超出先验高概率区域的环境上使用不变预测;即使是 Ω(delogE)\Omega(\sqrt{d_e \log E}) 的分离也足够了。如果我们期望新的环境是相似的,ERM 已经保证了在测试时合理的性能;因此,在这种制度下,IRM 从根本上没有比 ERM 更好。
  4. 最后的表述展示了这个预测器的一个特别惊人的失败案例 : 就像 ERM 一样,如果非不变特征和标签之间的相关性在测试时逆转,我们的预测器将明显比偶然性能差。

证明草图 我们给出一个与训练数据上的最佳不变预测器几乎相同的结构,但在测试时表现得像 ERM 解决方案。我们将环境特征空间分为两组 B,Bc\mathcal{B},\mathcal{B}^cB\mathcal{B} 是以每个 μe\mu_e 为中心的球的并集,每个球的半径足够大,可以包含该环境的大部分样本;因此 B 代表了绝大多数训练分布。在这个集合上,定义 Φ(x)=[zc]\Phi(x)=[z_c],所以我们的构造等于最优不变预测器。现在考虑 Bc=RdeB\mathcal{B}^c=\mathbb{R}^{d_e}\setminus\mathcal{B}。我们使用标准浓度结果来上限 Bc\mathcal{B}^cpp 的训练分布下的度量。接下来,我们展示了如何在这个集合上选择 Φ(x)=f1(x)=[zc,ze]T\Phi(x)=f^{-1}(x)=[z_c,z_e]^T 会导致次优界限,即 p2p^2 阶。同样清楚的是,我们构建的预测器等价于 Bc\mathcal{B}^c 上的 ERM 最优解。因此,我们的预测器通常在 Bc\mathcal{B}^c 上具有较低的经验风险,对抗正则化惩罚。

  证明的第二部分表明,虽然 B\mathcal{B} 在训练期间具有较大的度量,但在任何中等不同的测试环境下,它将具有非常小的度量。我们可以通过考虑均值的分离来看到这一点 (等式 7); B\mathcal{B} 中每个球的度量可以由包含它的半空间的度量限定; 如果每个球距离 μE+1\mu_{E+1} 足够远,那么这些半空间的总度量必须很小。因此,在测试时,我们的预测器将匹配观察的所有但 qq 上的 ERM 解决方案 (第 3 节)。最后,我们通过分析响应变量的分布来降低 ERM 预测器在这种分布偏移下的 010-1 风险。证明是通过观察我们的预测器的风险最多可以相差 qq 来完成的。

  定理 5.1 表明 IRM 解决方案在甚至与训练数据适度不同的环境中表现不佳。当然,如果训练分布“覆盖” (或近似覆盖) 环境的完整空间以缩小未来分布的性能,我们当然可以保证泛化。但是在这种情况下,ICP 不再需要;我们也可以期望 ERM 或 DRO 也执行。再一次,我们发现我们的结果很容易扩展到替代目标;我们再次参考附录 E。

附录 E. 替代目标的扩展

E.1 线性情况的扩展

  观察到方程 (4) 的约束严格强于 Bellot & van der Schaar (2020) 的约束;当满足前者时,后者的惩罚项必然为 0。因此,将第5节中的所有结果扩展到这个目标是微不足道的。作为另一个例子,考虑Krueger等人的风险变化惩罚目标 (2020) :

minΦ,β^1EeERe(Φ,β^)+λDeE(Re(Φ,β^))(21)\min_{\Phi,\hat{\beta}}\frac{1}{|\mathcal{E}|}\sum_{e\in\mathcal{E}}\mathcal{R}^e(\Phi,\hat{\beta})+\lambda\mathbb{D}_{e\in\mathcal{E}}\left(\mathcal{R}^e(\Phi,\hat{\beta})\right)\tag{21}

  可以很容易地在一个附加假设下扩展定理 5.1 :

推论 E.1 (定理4.1的扩展) 假设 ff 是线性的。假设我们观察到 EdeE\leqslant d_e 是具有线性独立均值和相同方差 σe2\sigma^2_e 的环境。考虑将经验风险最小化,并对上式中风险方差进行惩罚。那么,对于正则化参数 λ[0,]\lambda\in[0,\infty] 的任何选择,存在依赖于非不变特征的 Φ,β^\Phi,\hat{\beta},其实现的目标值低于最优不变预测器。

证明 考虑引理 C.2 中构造的特征提取器 Φ\Phi。如果环境方差是恒定的,那么环境特征的标签条件分布,

zeyN(yμ~σe2,σe2)z_e|y\sim\mathcal{N}(y\cdot\tilde{\mu}\sigma^2_e,\sigma^2_e)

  也是不变的。这意味着最优 β^\hat{\beta} 在环境中也有恒定的风险,这意味着惩罚项为 00,因此目标不依赖于 λ\lambda 的选择。与 4.1 一样,调用引理 F.1 意味着总体风险低于最优不变预测器。

  如章节 4 所述,恒定方差的额外要求是由于目标设计背后的假设—— REx 期望二阶矩 D(yΦ(X))\mathbb{D}(y|\Phi(X)) 的额外不变性,相比于 IRM 假设的 E[yΦ(X)]\mathbb{E}[y|\Phi(X)] 的严格较弱的不变性。这似乎意味着 REx 是一个更稳健的目标,但是但这并不能传达整个图像。上述推论的条件只是 REx 的一个可能失败案例; 通过将定理 4.3 扩展到这个目标,我们可以看到 REx 同样容易出现坏的解决方案 :

推论 E.2 (定理4.3的推广) 假设我们观察 EdeE\leqslant d_e 环境,使得所有的环境均值是线性独立的。然后,存在仅使用环境特征并且在 λ[0,]\lambda\in[0,\infty]的任一选择下,在每个环境 ee 上达到比 010-1 损失下的最优不变量预测器更低的目标值,使得 μ~>σc1μc2+β02σc1μc2\tilde{\mu}>\sigma^{-1}_c\lVert\mu_c\rVert_2+\frac{|\beta_0|}{2\sigma_c^{-1}\lVert\mu_c\rVert_2}

证明 我们遵循定理 4.3 的证明,除了在引理 C.1 中求解 pp 时,我们取而代之,找到满足以下条件的单位范数向量

pTμe=σeμ~eE(22)p^T\mu_e=\sigma_e\tilde{\mu}\quad \forall e\in\mathcal{E}\tag{22}

  观察到,通过设置 Φ(x)=[pTze]\Phi(x)=[p^Tz_e]β^=[1]\hat{\beta}=[1],给定环境中的 010-1 风险为

ηF(μ~σe/σe)+(1η)F(μ~σe/σe)=F(μ~)\eta F(-\tilde{\mu}\sigma_e/\sigma_e)+(1-\eta)F(-\tilde{\mu}\sigma_e/\sigma_e)=F(-\tilde{\mu})

  它与环境无关。此外,通过与定理 4.3 相同的证明,我们得到了只要满足以下条件,该非不变预测器具有较低的 010-1 风险

α+β02αμ~\alpha+\frac{|\beta_0|}{2\alpha}\leqslant\tilde{\mu}

  其中 α=σc1μc2\alpha=\sigma_c^{-1}\lVert\mu_c\rVert_2

  尽管由于上面的解决方案略有不同,这里的 μ~\tilde{\mu} 值并不完全相同,但它以相同的方式取决于训练环境的几何形状-它等同于取每个方差的平方根。因此,我们可以预期这一条件在大致相同的情况下成立,我们通过使用下面修改的公式复制图 C.2 来经验地验证这一点。

E.2 非线性情况的扩展

  这些目标在非线性状态下的失败甚至更为直接,因为我们可以保持定理 5.1 中构建的预测器不变。注意,定理的第 2-4 部分不涉及目标本身,因此不需要修改。

  为了看到第 1 部分仍然成立,请注意,由于所构建的预测器与观测值的 1p1−p 上的最优不变预测器相匹配,因此其在环境中的风险只能在剩余的 pp 部分上变化 : 因此,中心 010-1 风险在 00pp 之间有界。可以得知环境风险的方差的上界为 p24O(p2)\frac{p^2}{4}\in\mathcal{O}(p^2)。将这一论点应用于其他目标会产生类似的结果。

图 E.1.用于评估不同 dedc\frac{d_e}{d_c} 比率的 μ~\tilde{\mu} 的模拟。当 σe2=1\sigma^2_e=1 时,该值接近于 deE\sqrt{d_e-E},交叉点大约为 deσe2dcd_e-\sigma^2_ed_c。由于公式 22 与公式 11 的相似性,其结果与图 C.2 所示结果非常相似是合理的。