崔鹏老师Nature上关于StableLearning阐述论文的阅读

605 阅读26分钟

论文信息

    最开始看到这篇文章还是十分惊喜,崔老师自己深耕多年的Stable Learning在影响因子超过15的Nature上进行了发表,然后具体看这篇文章的时候就有些摸不到头脑(之前也每太看过Nature上的工作,只能说是科研菜鸟),感觉并不像是对于一些技术细节的讨论与发现,而是更倾向于一种理念的解释,经历了几番纠结之后我打算在机翻的基础上进行些润色,理清自己的思路,也方便更多想要快速了解崔老师工作的朋友对此进行一个了解。

稳定学习在因果推理和机器学习之间建立了一些共同之处

Abstract

    因果推断最近在机器学习和人工智能界中受到了大量的关注。它通常被定义为一项从预测建模到干预和决策都可以拓宽机器学习范围的不同方向的研究。然而在这种观点之中,我们认为来自因果关系的想法也可以用于改善机器学习的基本理论、预测建模、预测是否具有稳定性、可解释性和公平并十分重要。旨在弥合在传统因果推断的精确模型和机器学习中的黑箱模型的差距,稳定学习的方法应运而生并作为两者共同之处的来源。这样的一种观点澄清了机器学习风险的来源并讨论了将因果推断带入学习的好处。我们确定稳定学习解决的根本问题,以及因因果推断和机器学习领域的最新进展,并且讨论了可解释性与公平性问题之间的关系。

Main

    机器学习已经被容纳在各种数字服务中进行预测,从搜索引擎到社交媒体平台的搜索到电子商务,从而催生了蓬勃发展的数字经济。在这些场景中,机器学习的预测准确性和效率是优化的目标,而错误预测的潜在风险并不重要。对于诸如预测点击或分类图像的应用程序则可以频繁更新模型,并且试错成本相对较低。因此,这些应用领域非常适合使用能够进行持续性能监测的黑盒技术。

    然而近几年来,机器学习已经应用于更为广泛的领域,甚至进入到许多高精度领域之中,如医疗保健、工业制造、融资和司法管理。在这些领域之中,机器学习算法所导致的错误可能会带来巨大的风险,并且当算法预测在决策过程中发挥了关键作用时这些错误将会对社会带来巨大影响,例如安全,道德和正义。在这样的条件中,环境可能比模型会更快地发生变化,所以短期预测的性能变得愈发重要。

    特别是当我们认为如今的机器学习中亟需解决的问题是欠稳定性、可解释性和公平性。

解决问题的关键因素

稳定性

    如今机器学习中很经典的一个问题就是使用训练数据集上训练出的模型来对非训练数据集上的数据进行预测。许多已经发布的学习算法在测试数据和训练数据分布相同时性能卓越。然而这些在给定分布训练集上达到最佳性能的模型通常利用特征之间的细微统计关联,这使得当它们被应用于和训练数据的分布不同的测试数据时可能更容易出现预测误差。在实际应用中,从训练数据到测试数据分布的转变常是不可避免的。最终,当这些模型在具有未知分布的不同测试数据中应用时将不再具备稳定的性能,这使得它们变得不可靠。

解释性

    由于现实中许多应用的高度复杂性,期望人类可以依赖于机器学习算法产生具有足够高精度的预测性或符合规定的结果是不现实的,特别是在高精度领域或者一些难以量化选择的所有结果的环境中,在决策链路中保留人作为最终的决策者可能是更好的方式。这就需要一种算法和人类的共同语言以相互了解和协作,然而目前的大多数现成的机器学习模型是黑箱模型:算法运行过程和预测的结果都很难被人直接理解。虽然目前存在关于可解释性AI的一些研究,但大多数研究都试图分部地解释黑箱传递的信号,而不是设计固有的可解释模型。

公平性

    伴随着近期将机器学习被引入社会问题中的趋势,公平公正的问题则收到了研究人员与公众的强烈关注。主流机器学习算法可以放大数据中存在的偏差,这或许会导致“不公平”的结果。例如,COMPAS系统是美国法院广泛使用的判断被告将来是否可能犯罪的工具。然而据报道称,相较于白人被告,黑人被告往往会被判定拥有更高的假阳性率(FPR),这一报道称该系统对于黑人被告明显不公平。如果公平问题没有充分解决,这将只是机器学习可能产生负面影响的众多情况之一。

    在下文中,我们讨论了一些风险的成因以及从因果推断想法来解决它们的机会和挑战。 然后我们介绍了以找到因果推理和机器学习之间的共同点为目标的稳定学习的发展和它对解决可解释性和公平问题的积极影响。

杂散的相关是风险的关键来源

    机器学习模型中以监督学习为例,最终学习输入变量和输出变量之间的线性或非线性相关关系。也就是说,相关性是这些学习算法的统计学基础。数据中的相关性可以由多种原因产生,Fig.1中给出了其中几种较为常见的情况。

因果性

    如Fig.1a所示,当两个变量中的一个是另一个的直接原因或间接原因时,它们之间存在关联。例如天气(S)影响作物产量(Y),因此该季节的作物产量与该季节的天气相关。这种类型的关系反映了在不同环境中仍然不变的变量之间的内在和普遍存在依赖性,即使其最终产生的影响幅度仍受制于环境。

混杂性

    如Fig.1b所示,当两个变量共享同一个原因时(即混杂)时,它们之间相互关联。例如患者的状况(S),尤其是他/她患病的严重程度,是ICU治疗(V)和恢复率(Y)的共同原因。如果我们直接分析ICU治疗和恢复率之间的相关性而不去平衡考虑患者的身体状况,我们将获得错误的结论:即ICU治疗导致了较低的恢复率。而这就是一种杂散的相关性。这种(无条件的)相关性往往难以解释。同时,由于这种混杂程度以及是否出现混杂取决于S与V之间的相关性,当特征的节点分布在环境中发生变化时,它的稳定性会降低。

数据选择偏差

    数据选择偏差在实际的在以不同于目标域的分布选择数据的环境中是常见的甚至是不可避免的。典型的情况如同Fig.1C所示,在仅对选择变量Se的高值进行分析将导致V,S和Y之间所呈现的虚假相关性。考虑以“狗”类别中的图像分类为例,我们可能会收集到一个大多数样本都是描绘了草地上的狗的训练数据集,然后,草(即V)的特征将与狗的特征错误关联,从而导致草与“狗”标签(Y)之间存在杂散相关性。鉴于数据集中数据选择往往存在无意的诱导,因此难以预先判别这种杂散的相关性。如果训练数据分布与测试数据分布不同,则预测将不准确。

    在上述产生相关性的这三种情况中,只有因果关系产生的相关性反映了变量之间的内在依赖性,而另外两种类型则是在特征的联合分布和数据收集过程存在偏好所呈现出的虚假相关性。尽管如此,在当今的机器学习中,黑箱模型甚至没有尝试区分这三种不同的产生关联性的方式。因此,它们的预测性能极大取决于训练数据分布到测试数据分布的差距,导致在不同的测试下拥有不稳定的性能。同时,基于杂散相关的预测模型也可能是不满足公平性原则的。若从根本上解决稳定性、解释性和公平性的风险,我们则需要拥抱和强调机器学习框架的因果关系。

利用因果关系预测建模的机遇和挑战

    因果模型与基础过程生成数据相匹配。在Fig.2中,我们展示了随着时间的推移生成数据集的物理过程。通过预测问题的本质,分析师试图利用预后变量来预测未来和潜在结果。在产品推荐系统中,用户以他/她的属性为特征展现出对不同属性的产品的不同程度的兴趣,最后通过他/她对产品的兴趣和产品属性一同产生购买行为。在图像分类问题中,首先将照片选择到数据集中,然后图像注释器观察照片内容并提取特征,最后他/她根据对视觉内容的理解使用类别标签注释照片。因此,图像的特征是原因,其标签是结果。虽然这种情况被描述为文献4中一个反因果的例子,它们提出的因果结构是P(x,y)的数据生成机制,而不是p(y|x)的描述这样预测建模所感兴趣的对象。如果数据生成过程与环境的相关特征一起被描述,则该过程基本稳定。这可以作为机器学习研究人员将因果关系纳入机器学习预测问题的重要动机。

    使用观察数据估算因果效应需要完备的假设。最受欢迎的方法之一可以描述如下, 首先,研究人员观察到潜在的混杂,并假设在调整这些观察到的混杂之后,处理独立于其潜在结果。这种假设被称之为去混杂化。第二个假设是稳定的单位处理值假设(即特定单位的响应仅取决于其自身单位处理,而不是其他单位的处理)。第三,重叠假设需要在每个可能的观察到的混杂方面都具备条件,所有单位对每个处理条件都有非零的分配概率。 不幸的是,这些假设大多是不可取的(尽管在实践中,研究人员进行了各种补充分析,以评估其假设的可信度)。 在大规模的、多种处理随机对照试验中,找到当有许多可能的处理时、相关假设可以是合理的设定环境可能非常困难的。同时,由于被称为“因果推理的根本问题”,在我们不观察到一个同时存在处理和未经处理的单位时,存在缺失的数据问题使得很难判断因果模型是否有效。

    通常,如果可以识别和估计真正的因果结构(即,如果数据生成结构是可以外部观测的),则预测问题可以自然地被解决为侧产品。但要遵循这条技术路径,我们必须解决因果推断的所有挑战。而在现实的数据集上基本不可能如此操作。尽管如此,我们认为预测性建模不需要重建真正的数据生成过程,最佳预测模型将平衡考虑模型选择中的偏差和方差。因此,像对因果效应的一致估计这样对因果推断设定明确目标是不需要的,并且即使我们没有完全解决因果推理问题所需的数据,也可能有近似或改进的方法。预测建模更容易使用的另一个原因是预测结果的基础事实可用,因此可以在保持测试集中定量时评估模型的正确性。因此,可以避免验证因果推断的根本问题而带来的挑战。

    因此我们认为应该建立机器学习和因果推断之间的共同点。并因此提出和开发了稳定学习的框架,以作为满足这一目标的一种方法。

稳定学习的定位与发展

    与传统的机器学习环境设置不同,我们不默认训练数据与测试数据服从一样的分布。从环境eEe\in \Epsilon中提取训练数据集De=(Xe,Ye)D^e=(X^e,Y^e),其中XeX^e是特征变量而YeY^e是结果变量,稳定学习旨在学习一种预测模型,可以在E\Epsilon中的任何可能的子环境分布中实现统一的良好性能。当然,这些必须存在一些共同的联系,以使得模型可以积极的进步。从这种观点出发,我们关注协变量迁移泛化的环境设置,当PE(YX)P^\Epsilon(Y|X)不受到ee的变化而PE(X)P^\Epsilon(X)受到其影响。

    文献11基于平均错误率与稳定性错误率正式确定稳定的目标,这是指所有可能的环境eEe\in\Epsilon的预测误差分别引用平均值和标准偏差。如文献12所呈现,注意到这里的稳定性不是在估计稳定性上而是在预测性能上定义。在评估稳定学习模型的稳定性误差时,分析者无法预测所有可能的测试环境。虽然通常可以通过反复创建测试数据的非随机子样本来模拟一系列测试环境以获得评估稳定性,但这将主观元素引入算法中。

    我们在Fig.3中说明了不同学习范式之间的关系。最常见的情况是学习假设,培训和测试数据是独立同分布的(IID)。然而,测试分布可能从训练分布进行任意偏移。迁移学习(或域适应)假设我们在进入测试之前就对目标分布有所了解。最近,域泛化的问题引发了越来越多的关注。这些方法主要需要由不同环境组成的训练数据,并且它们的性能高度取决于预定义或预先识别的训练环境的多样性。

    与上面提到的学习方法相比,稳定的学习旨在更好地在现实环境中实现。一方面,我们不对测试数据进行任何强有力的可用性的假设,正如2D学习或迁移学习中的问题。另一方面,我们不假设在训练数据中的多个环境的可用性,就像域泛化中那样。同时,稳定学习让模型的泛化能力达到了更高的标准。学习模型应该在看不见的环境中平均实现良好的性能。这种高标准对机器学习模型提出了更多的挑战,并迫使我们重新更根本地去思考泛化问题。

从因果的角度看稳定学习

    与因果推断相比,它寻求一致的处理效果及其相互作用的一致估计,稳定学习旨在学习潜在更大数量的处理变量和结果之间的映射。从因果关系角度解释稳定学习,我们首先考虑:(1).系统中没有结果变量Y的效果变量的情况,也就是说,结果变量不能成为任何其他变量的原因;(2).以上三种假设均适用于每一对(Xi,Y)(X_i,Y)(非混杂性、重叠和稳定的单位治疗处理假设)。

    稳定学习的原始思想受到因果推理中用于估计在许多潜在混杂存在下控制单一处理的平均效果的协变量平衡策略中的文献所影响。这些方法试图构建平衡处理组与对照组之间协变量的分布的样本权重,之后处理和结果变量之间的相关性是因果效应的一致性。尽管存在其他方法来估算在不协调缺陷下的因果效应,这种基于重新赋权的方法作为稳定预测的起点格外有效。然而,现有的协变性平衡中的方法适用于少量处理的环境。当我们通过因果推断的角度来看稳定学习时,就提出了更雄心勃勃的问题:如果我们将每个输入变量视为迭代的处理,并且所有剩余的输入变量为其协变量,则可以实现全局协变量平衡的一组样本权重(即全局平衡)无论哪个输入变量都存对应处理吗?如果可以,则该组样本权重可以允许我们基于特征与重新重量数据中的结果之间的相关性始终如一地估计每个输入特征的因果效应。

    注意到全局平衡估计的因果效应可以被解释为直接效果。考虑例如YX2X1YY\leftarrow X_2\rightarrow X_1\rightarrow Y的因果结构,为了简单起见其特征是二进制的,并且X2X_2的直接效果是可以与X1X_1的直接效果相加和。当考虑X1X_1作为处理时,X2X_2发挥混杂的作用,因此在X1X_1处理组和X1X_1对照组之间衡X2X_2导致X1X_1YY之间的相关性作为X1X_1YY的直接效果的估计(等于平均处理效果,ATE)。 当考虑X2X_2作为处理时,X1X_1起到X2X_2YY之间的中介的作用。在X2X_2处理组与X2X_2对照组间平衡X1X_1通过中介X1X_1消除X2X_2YY的效果,并且X2X_2YY之间的相关性是X2X_2YY的控制直接效果,即未以X1X_1作为中介的部分。在线性系统中,直接效果与我们保持X1X_1的值无关,而在非线性系统中,直接效果取决于平衡后X1X_1的值。对于观察到X2X_2X1X_1时预测的目标,这些是所需要的:我们不需要估计X2X_2X1X_1的直接效果,这可能会在环境中各不相同。如果我们知道X1X_1X2X_2的直接效果,通过这种因果结构,即使(X1,X2)(X_1,X_2)的节点分布变化,我们也可以预测结果。如果X1的直接效果取决于X2的值(即如果在结果模型中存在相互作用效果),然后X1X_1效果的平均值(在X2X_2固定情况下)取决于(X1,X2)(X_1,X_2)的节点分布。因此,在预测模型中纳入这种相互作用以实现关于特征的关节分布的稳定性是重要的。

    为了追求全局平衡的一套样本参数,我们提出了一种如文献11所示的方法用于去除功能之间的相关性,这样对于每个特征,当考虑该特征作为处理变量时,经处理组和对照组之间的协变量分布在处理组和对照组之间平衡。我们认为在上述大量数据和重叠假设的规律下,存在最佳的重量WW^*其将全局平衡损耗降至零。然而,在许多特征和现实的样本尺寸下,重叠假设可能会失效,并且我们可能没有与每个特征组合相关的观察结果。

    因此,一系列算法被提出以优化朝向全局平衡的样本权重。该过程从一个全局平衡损耗开始,专为二进制输入变量而设计并可以轻松插入标准的学习任务作为规范器。据证明在将全局平衡损耗集成到标准逻辑回归模型之后,所学评估的回归系数具有预测力和因果含义。为了减轻重叠假设,尤其是样本大小或高维特征空间,无监督的表示学习模块集成到全局平衡阶段,形成了原始规范器的“深层”版本。在引用13中通过引入连续变量独立性的标准,全局平衡的规范器从二进制变量扩展到学习场景中的常见设置的连续变量。

    通过将混杂的平衡技术从因果推断扩展到机器学习问题中,我们已经看到提高机器学习模型的稳定性的希望。但是,如上所述,我们需要严格的假设来对稳定学习进行因果解释。 这激励我们探索稳定学习的其他理论支持。

统计学习视角的稳定学习

    正式而言,采用样品重新赋权构成了稳定学习的优势。因此出现了一个很自然的问题:为什么样本重新赋权可以改善相关模型的稳定性(例如线性回归)?稳定学习的算法可以在无需完全实现因果推断的更雄心勃勃的目标的情况下继续提高稳定性吗?

    为了回答这些问题,在文献25中我们调查了线性回归框架与模型拼写模型中的稳定学习问题,其中真正的数据生成过程的特征是非线性的或者不包含数据分析者的互动。有以下形式:

Y=XTβˉ1:p+βˉ0+b(X)+ϵY=X^T\bar{\beta}_{1:p}+\bar{\beta}_0+b(X)+\epsilon

    其中非线性形式b(X)b(X)被约束为小于小量δ\delta,并且ϵ\epsilon是噪声。如果我们可以正确估计系数βˉ\bar{\beta}并使用它们以进行预测,则该模型可以对任何样品产生均匀的可以保证任意分布下的稳定性的良好预测结果。因此模型的稳定性可以通过模型估计误差β^βˉ2||\hat{\beta}-\bar{\beta}||_2,其中βˉ\bar{\beta}表示估计的系数。理论上证明该估计误差的上界为O(Δ/λ)O(\Delta/\lambda),其中λ\lambda是设计矩阵的最小特征值,表示输入变量之间的共同性程度。如果在训练阶段使用了错误的模型,输入变量之间的共同性的存在可能会将小的误操作的误差膨胀到任意大的大小。公式推导和经验结果都告诉我们,对于样本全局变量进行重新赋权以实现的减少输入变量之间的共同性是提高稳定性的有效方法。

    应当注意的是这里没有明确讨论因果推断所需的三个假设。稳定学习并没有对于非混杂性提出严格的要求,也就是说其允许有潜在变量存在。只要观察到的变量同潜在变量的联合分布是稳定的,就可以保证稳定学习的稳定性,或者说,与传统的预测模型相比,稳定的学习没有潜在变量膨胀的危害。同时协变量的去相关过程不依赖于重叠假设,但是数据集更好地满足重叠假设将会导致较低的估计方差。如果我们专注于预测性能而不是因果解释,也不需要稳定的单位处理值假设。在稳定学习中,因果效应的估计不是其主要目标,而是一种末端的手段。 因此,稳定学习有可能使用数据来进行涉及平衡偏差和方差的权衡的优化。

因果关系和学习观点的弥合

    虽然从两个观点来看,稳定学习算法采用样本重新赋权作为提高模型稳定的技术方法,但是支撑着这个想法的概念是不同的。现在,我们尝试在回归框架内桥接这两种概念。

    当我们迭代地将每个输入变量视为稳定学习中的处理,我们认为其所有混杂协变量都包含在剩余的输入变量中。在二元处理变量的情况下,学习的样本权重最终使处理变量独立于剩余的变量。将此解释扩展到全局平衡中,我们可以得出学习的全局样本权重可以使所有输入变量相互独立的结论。此后当我们对加权样本进行回归时,每个输入变量的回归系数代表其对结果的部分效果,这被认为是因果效应。类似地从统计学习的角度来看时,在输入变量之间去除共同性的效果倾向于使输入变量不相关。因此,使输入变量独立是这两个稳定学习视角的共同目标,这也为因果推理和机器学习提供了一个共同点。

    此外,我们证明了创建输入变量独立可以帮助识别预测的真实变量。考虑这样的一个数据生成过程Y=f(S)+ϵY=f(S)+\epsilon,其中X=(S,V){\rm \bold X}=(S,{\rm \bold V})YVSY\bot{\rm \bold V}|S,其涵盖了Fig.1中的包涵混杂和选择偏差的所有情况。如果f(x)f(x)是非线性函数,当我们使用诸如普通最小二乘(OLS)的线性回归模型时会出现模型的误操作,从而导致VV上的非零系数。通过从稳定学习方法例如样本重新赋权去相关性(SRDO)操作中学到的样本权重,加权OLS可以在学习函数中保证VV中的零系数,这意味着仅有SS中变量用于这预测,因此即使(S,V)的节点分布变化,预测也是稳定的。

    因果推断框架提供了理解诸如回归等学习模型的稳定性的基本观点。尽管如此,回归系数的因果解释也只能通过依赖于预测推理所需的更严格的假设来证明。相比之下,从学习的视角出发可以帮助削弱这些假设,以便在更复杂的任务中拥有更好的性能。因此,作为因果推理和机器学习之间共同点,稳定学习可以在理论基础和实际预测力中继续扩展。

解释性和公平性的含义

    在现实应用中,通常共同需要稳定性、解释性和公平性质。由于这些性质与因果关系本身有关,因果关系激发的稳定学习可能会带来可解释性和公平性的影响。

    最近的一篇文章呼吁社区停止解释黑箱模型并使用固有的可解释模型。由于人类的模型通常基于具有理解潜在机制的最终目的因果关系,纳入因果关系是为了使人类和预测模型获得共同点。因此,在由国防高级研究项目机构(DARPA)赞助的可解释的AI项目中,因果模型被视为突出的技术路径。另一方面在解释性的AI的研究中,部分依赖性部分通常用作诊断技术以生成模型预测中特定功能的重要性的见解。稳定学习的模型与解释性的因果关系和评估度量的概念一致,例如部分依赖性区域,自然保证其可解释性。

    关于公平,主流研究提出了测量集群公平和个体公平的各种指标。与通常直接应用于观察数据的现有度量相反,因果推断可以为框架公平问题提供一个生成的角度。在稳定学习中合理的假设下,我们最终利用直接因果变量来预测结果,可以避免由虚假相关引起的公平性问题。最近,研究人员在公平性问题和稳定性(或鲁棒性)问题之间建立了密切的联系,使得稳定学习成为解决公平性问题的首选。

总结

    如果我们希望这些算法被广泛部署,则迫切需要解决机器学习算法的稳定性、解释性和公平性的问题。然而大多数关于这些问题的研究都在试图纠正现有的模型(如深度学习模型),这与这些目标具有本质上的不同。我们认为,这些问题是当今学习范式的基本限制,需要从根本上解决。尽管在历史上贴探讨了很长时间,”预测的基础,相关性与因果关系是什么?“的完整问题仍需重新研究清楚。近期因果推理的进展,特别是在观察研究中,可以提供更多的见解以及对机器学习的理论支持。稳定学习的提出为试图在这两个方向之间找到共同点。如何合理地放松匹配场景的严格假设“处于自然状态下”,在不牺牲预测能力的情况下使机器学习更值得信赖,这是稳定学习未来需要面对的重要问题。

结语

    翻译了小半周终于看完+翻译完了,虽然严格意义上来说自己翻译水平并不好,有的地方也没有完全看明白,但还是希望自己能够逐渐去理解稳定学习内在的思路和方法。