干预 ——《统计因果推理入门》第三章学习笔记

517 阅读21分钟

目录与链接

《统计因果推理入门》第一章学习笔记

《统计因果推理入门》第二章学习笔记

《统计因果推理入门》第三章学习笔记

《统计因果推理入门》第四章学习笔记

3 干预的效果

3.1 干预

  正如你无疑在统计学课上多次听到的那样,“相关性不是因果关系”。仅仅是两个变量之间的关联并不一定或通常意味着其中一个变量导致了另一个变量。因此,随机对照实验被认为是统计学的黄金标准。在一个适当的随机对照实验中,所有影响结果变量的因素要么是静态的,要么是随机变化的,只有一个因素例外,所以结果变量的任何变化都必须是由那个输入变量引起的。不幸的是,许多问题并不适合随机对照实验。我们无法控制天气,所以我们无法随机选择影响野火的变量。因此在这里我们引入干预的概念。

  干预变量和以该变量为条件之间的区别应该是明显的。当我们干预模型中的一个变量时,我们会固定它的值。我们改变了系统,其他变量的值也随之改变。当以一个变量为条件时,我们什么也不改变;我们仅仅关注问题的子集,这个子集中的变量的值都是我们感兴趣的。因此,这里改变的是我们对世界的看法,而不是世界本身。

图 3.1.左子图为温度 (Z)、冰激凌销量 (X) 和犯罪率 (Y) 之间关系的图模型,而右子图则对其进行了干预

  在图 3.1 中,展示了冰激凌销量例子的图模型。当采取干预措施、固定变量的值的时候,意味着消弱了该变量为响应其他变量而变化的自然趋势。这相当于在图模型上进行一种处理,即删除指向该变量的所有边。如果采取的干预措施时控制冰激凌销量 (如关闭所有的冰激凌店),将得到图 3.2 的图模型。检查图 3.2 中的相关性可以发现,犯罪率与冰激凌的销量完全独立,这是因为后者不再与温度 (Z) 相关。即固定 X 的值的变化不会传递到 Y (犯罪率)。对于任何给定的干预,可以根据图模型来确认应该删除哪些边。

  在符号上区别变量 X 自然地取值 x 的情况和固定 X 取值 x 的情况,后者用 do(X=x)\text{do}(X=x) 来表示。利用 do-运算和图模型,可以讲因果关系从相关关系中分解出来。剩下的内容将在本章之后的内容呈现。

3.2 校正公式

图 3.2.左子图为新药效果的图模型,右子图为对于左子图进行干预

  上面的例子还是较为理想,为了探索更现实的情况,分析图 3.2的左子图,这样的图模型可以代表我们在的辛普森悖论举的第一个例子,其中 X 代表药物的使用,Y 代表康复情况,Z 代表性别,其中 Z 和 X 都对 Y 产生影响。为了确定药物在人群中的有效性,设想一种假设性的干预措施,通过这种干预,即对整个人群统一服用这种药物,并与补充干预下的痊愈率进行比较。用 do(X=1)\text{do}(X = 1) 表示第一个干预,用 do(X=0)\text{do}(X = 0) 表示第二个干预,我们的任务是估计它们之间的差异

P(Y=1do(X=1))P(Y=1do(X=0))(1)P(Y=1|\text{do}(X=1))-P(Y=1|\text{do}(X=0)) \tag{1}

  这种差异称为“因果效益差异”或“平均因果效应” (average causal effect ACE)。一般情况下如果 X 和 Y 能够取多个值,我们希望对其进行遍历。

  在右子图中对其施加干预 (即该模型中的全体人群统一服用了该药物,结果为操纵概率 PmP_m,为修改模型中的概率),显而易见的是,P(Y=ydo(X=x))=Pm(Y=yX=x)P(Y=y|\text{do}(X=x))=P_m(Y=y|X=x)。(这种处理方法也解决了是应该分析总表还是分析以变量 z 的值划分的子表来得到正确答案的问题,当通过干预获得答案时,处理一个表就可以了)

  与此同时,PmP_m 具有两个基本属性

  • 边缘概率 P(Z=z)P(Z=z) 在干预后不变,因为移除 Z 到 X 的箭头并不会影响确定 Z 的过程,这意味着干预前后男女患者比例不变。
  • 条件概率 P(Y=yZ=z,X=x)P(Y=y|Z=z,X=x) 是不变的,因为不管 X 是自发变化还是被故意操控变化,Y 对 X 和 Z 的响应函数 Y=f(x,z,uY)Y=f(x,z,u_Y) 不变,因此,可以给出两个不变性方程 :
Pm(Y=yZ=z,X=x)=P(Y=yZ=z,X=x)Pm(Z=z)=P(Z=z)P_m(Y=y|Z=z,X=x)=P(Y=y|Z=z,X=x)\\ P_m(Z=z)=P(Z=z)

  因 Z 和 X 在修改后的模型中是 d-分离的,因此在干预分布中是独立的,这说明 Pm(Z=zX=x)=Pm(Z=z)=P(Z=z)P_m(Z=z|X=x)=P_m(Z=z)=P(Z=z)。综上所述,可以得到

P(Y=ydo(X=x))=Pm(Y=yX=x)由定义(2)P(Y=y|\text{do}(X=x))=P_m(Y=y|X=x)\text{由定义} \tag{2}
=zPm(Y=yX=x,Z=z)Pm(Z=zX=x)(3)=\sum_z P_m(Y=y|X=x,Z=z)P_m(Z=z|X=x) \tag{3}
=zPm(Y=yX=x,Z=z)Pm(Z=z)(4)=\sum_z P_m(Y=y|X=x,Z=z)P_m(Z=z) \tag{4}

  式 (3) 由全概率公式得到,而式 (4) 则利用修改后模型中 Z 和 X 的独立性得到。最后利用不变性关系,得到一个以干预前概率表示的因果效应公式

P(Y=ydo(X=x))=zP(Y=yX=x,Z=z)P(Z=z)(5)P(Y=y|\text{do}(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z) \tag{5}

  式 (5) 称为校正公式,它对每一个 Z 的值 z 计算了 X 和 Y 之间的关系,然后对这些值求平均值,这个过程被称作为 “对 Z 的校正” 或者 “对 Z 的控制”。式 (5) 的意义在于我们不需要真的进行干预操作即可得到相应的结果。

  下面继续使用之前第一章中的数据进行分析

P(Y=1do(X=1))=P(Y=1X=1,Z=1)P(Z=1)+P(Y=1X=1Z=0)P(Z=0)=0.832P(Y=1do(X=0))=0.7818ACE=P(Y=1do(X=1))P(Y=1do(X=0))=0.0502P(Y=1|\text{do}(X=1))\\=P(Y=1|X=1,Z=1)P(Z=1)+P(Y=1|X=1|Z=0)P(Z=0)\\=0.832\\ P(Y=1|\text{do}(X=0))=0.7818\\ ACE=P(Y=1|\text{do}(X=1))-P(Y=1|\text{do}(X=0))=0.0502

  这表明服药对于痊愈有着积极作用。下面分析图 3.3 中假设的因果模型。

图 3.3.改变后的因果模型,X 与 Z 之间的箭头进行了反转

  通过切断进入干预变量 X 的所有箭头来模拟干预,然而这里的 X 没有父节点,所以

P(Y=ydo(X=x))=P(Y=yX=x)P(Y=y|\text{do}(X=x))=P(Y=y|X=x)

3.2.1 校正还是不校正

规则 3.2.1 (因果效应规则) 给定一个图 G,设变量 X 的父节点集合为 PAPA,则 X 对 Y 的因果效应为

P(Y=ydo(X=x))=zP(Y=yX=x,PA=z)P(PA=z)(6)P(Y=y|\text{do}(X=x))=\sum_z P(Y=y|X=x,PA=z)P(PA=z) \tag{6}

  其中 z 的取值范围是 PAPA 中变量可能取值的所有组合。如果我们将 (6) 中的总和除以概率 P(X=xPA=z)P(X=x|PA=z),我们得到一个更方便的形式 :

P(ydo(x))=zP(X=x,Y=y,PA=z)P(X=xPA=z)(7)P(y|\text{do}(x))=\sum_z\frac{P(X=x,Y=y,PA=z)}{P(X=x|PA=z)}\tag{7}

3.2.2 多重干预和截断乘积规则

  为了表示多重干预,我们简单地对于图模型产生的联合分布进行乘积分解,则图 3.2 左子图中模型的分布可用乘积形式给出 :

P(x,y,z)=P(z)P(xz)P(yx,z)(8)P(x,y,z)=P(z)P(x|z)P(y|x,z) \tag{8}

  而干预后的分布优其右子图确定,以乘积的形式表示为

P(z,ydo(x))=Pm(z)Pm(yx,z)=P(z)P(yx,z)(9)P(z,y|\text{do}(x))=P_m(z)P_m(y|x,z)=P(z)P(y|x,z) \tag{9}

  在这个公式中,因为 X 无父节点了,所以删除了因子 P(xz)P(x|z)。同时这也启发我们将校正公式推广到多重干预

P(x1,..,xndo(x))=ip(xipai)(i取所有不在X 中的Xi)P(x_1,..,x_n|\text{do}(x))=\prod_i p(x_i|pa_i) (i \text{取所有不在} X \ \text{中的} X_i)

图 3.4.截断乘积公式示例表示图

  该公式被称为截断乘积公式或 g-公式,下给出图 3.4 为例。将 X 设置为 x,Z3Z_3 设置为 z3z_3,则干预后模型中其他变量分布为

P(z1,z2,w,ydo(X=x,Z3=z3))=P(z1)P(z2)P(wx)P(yw,z3,z2)P(z_1,z_2,w,y|\text{do}(X=x,Z_3=z_3))=P(z_1)P(z_2)P(w|x)P(y|w,z_3,z_2)

  以及结合式 (8) 和式 (9),得到干预前后的简单关系,可以进一步简化干预求解。

P(z,ydo(x))=P(x,y,z)P(xz)(10)P(z,y|\text{do}(x))=\frac{P(x,y,z)}{P(x|z)} \tag{10}

3.3 后门准则

  在前一节中,我们发现,在试图确定一个变量对另一个变量的影响时,应该对变量的父变量进行调整。但通常情况下,变量的父节点不可观测,虽然该父节点在图中已经体现,但节点的值却无法得到。在这种情况下,需要招到一个替代的变量集合用于校正。实际上,用于计算因果效应的一个重要工具就是一个简单的准则——后门准则。使用后门准则可以确定,对于有向无环图表示的因果模型中的任何两个变量 X 和 Y,应该以模型中的哪些变量 Z 为条件来寻找 X 与 Y 之间的因果关系。

定义 3.3.1 (后门准则) 给定有向无环图中的一对有序变量 (X,Y)(X,Y),如果变量集合 ZZ 满足 : ZZ 中没有 XX 的后代节点,且 ZZ 阻断了 XXYY 之间的每条含有指向 XX 的路径,那么称 ZZ 满足关于 (X,Y)(X,Y) 的后门准则。一般来说,我们希望这样的节点集合 ZZ 为条件 :

  • 阻断 XXYY 之间的所有指向 XX 的路径
  • 保持所有从 XX 指向 YY 的有向路径不变
  • 不会产生新的 XXYY 之间的指向 XX 的路径

  如果变量集合 ZZ 满足 (X,Y)(X,Y) 的后门准则,那么 X 对 Y 的因果效应可以由以下公式计算

P(Y=ydo(X=x))=zP(Y=yX=x,Z=z)P(Z=z)P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z)

图 3.5.左子图中表示新药 (X)、痊愈率 (Y)、体重 (W) 与一个不可测的变量 (Z) 之间关系的图模型。右子图没有给出实际含义

  下面用图 3.5 中的两个子图说明一下后门准则的实际应用。在左图中 : 节点 W (非 X 的后代) 阻断后门路径 XZWYX\leftarrow Z\rightarrow W\rightarrow Y,因此 W 满足后门准则。而在右子图中,从 X 到 Y 有四条后门路径且都经过 Z 节点,其中 Z 节点在路径 XEZAYX\leftarrow E\rightarrow Z\leftarrow A\rightarrow Y 中是一个对撞节点,以 Z 为条件会导致这条路径连通,所以满足后门路径的集合为 {E,Z}\{E,Z\}{A,Z}\{A,Z\}{E,A,Z}\{E,A,Z\}

3.4 前门准则

  后门准则提供了一种简单的方式来识别需要校正的变量集合。然而并不是所有的因果效应估计问题都可以通过这种方法来解决。do-操作还可以应用于一些不满足后门准则的图模型,本章则讨论这样的一种模式,即前门。

  下面考虑吸烟和肺癌之间关系的长达一个世纪的争论。在1970年前,烟草业通过推广一种理论成功阻止了反吸烟立法。该理论认为,观察到的吸烟和肺癌之间的相关性可以用某种致癌基因型来解释,这种基因型也会诱导人们天生对尼古丁的渴望。其图模型如图 3.6 所示。

图 3.6.表示吸烟与肺癌关系的图模型

  该模型是不符合后门准则的,因为变量 U 是未观测到的,因此不能阻断从 X 到 Y 的后门路径。假设下表 3.1 给出了一些数据。

患病情况 有焦油 无焦油 合计
吸烟者 不吸烟者 吸烟者 不吸烟者 吸烟者 不吸烟者
380 20 20 380 400 400
无癌症 人数/1 000 323 1 18 38 341 39
比例/% 85 5 90 10 85.25 9.75
患癌症 人数/1 000 57 19 2 342 59 361
比例/% 15 95 10 90 14.75 90.25

表 3.1.一个随机选择的假设数据集

  对这些数据可以有两种相反的解释。烟草业辩称,该表格证明了吸烟的益处。他们指出,与 90.25% 的非吸烟者相比,只有 15% 的吸烟者患上了肺癌。此外,在焦油和不焦油两个亚组中,吸烟者患癌症的比例比不吸烟者低得多。(这些数字显然与经验观察相反,但很好地说明了我们的观点 : 观察是不可信的。)

  然而,反对吸烟的人争解说,这张表讲述了一个完全不同的故事——吸烟实际上会增加一个人患肺癌的风险。他们的论点如下 : 如果你选择吸烟,那么你积累焦油沉积的几率是 95%,而如果你选择不吸烟,则是 5% (380/400 vs 20/400)。为了评估焦油沉积的影响,我们分别观察了两组人,吸烟者和不吸烟者,如表 3.2 所示。所有的数字都以千为单位。

患病情况 吸烟者 不吸烟者 合计
有焦油 无焦油 有焦油 无焦油 有焦油 无焦油
380 20 20 380 400 400
无癌症 人数/1 000 323 18 1 38 324 56
比例/% 85 90 5 10 81 14
患癌症 人数/1 000 57 2 19 342 76 344
比例/% 15 10 95 90 19 86

表 3.2.表 3.1 数据的重新组织

  焦油沉积似乎对两组人都有有害影响;在吸烟者中,它使癌症发病率从 10% 增加到 15%,在不吸烟者中,它使癌症发病率从 90% 增加到 95%。因此无论我是否天生渴望尼古丁,我都应该避免焦油沉积的有害影响,而不吸烟提供了非常有效的方法来避免它们。首先,我们注意到 X 对 Z 的影响是可识别的,因为从 X 到 Z 没有后门路径。因此可以立即得到

P(Z=zdo(X=x))=P(Z=zX=x)(11)P(Z=z|\text{do}(X=x))=P(Z=z|X=x) \tag{11}

  接下来,Z 对 Y 的因果效应也是可以识别的,因为从 Z 到 Y 的后门路径 ZXUYZ\leftarrow X\leftarrow U\rightarrow Y,通过以 X 为条件来阻断,因此有

P(Y=ydo(Z=z))=xP(Y=yZ=z,X=x)P(X=x)(12)P(Y=y|\text{do}(Z=z))=\sum_x P(Y=y|Z=z,X=x)P(X=x) \tag{12}

  式 (11) 与 (12) 都是通过校正公式获得的,前者以空集为条件,后者对 X 进行校正。现在要把两部分效应结果结合起来,进行如下推理 : 选择固定 Z 的值为 z,则 Y 的概率为 P(Y=yZ=z)P(Y=y|\text{Z=z})。但考虑将 X 设置为 x,那么选择固定 Z 值为 z 的概率为 P(Z=zdo(X=x))P(Z=z|\text{do}(X=x))。对 Z 的所有可能值 z 求和即有

P(Y=ydo(X=x))=zP(Y=ydo(Z=z))P(Z=zdo(X=x))=zxP(Y=yZ=z,X=x)P(X=x)P(Z=zX=x)(13)P(Y=y|\text{do}(X=x))=\sum_z P(Y=y|\text{do}(Z=z))P(Z=z|\text{do}(X=x))\\ =\sum_z\sum_{x'} P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x')\tag{13}

  将上式应用于表,我们发现烟草业的理由是靠不住的。由此我们引入前门的概念和公式

定义 3.4.1 (前门) 变量集合 Z 被称为满足关于有序变量对 (X,Y)(X,Y) 的前门准则,如果 :

  • Z 切断了所有 X 到 Y 的有向路径
  • X 到 Z 没有后门路径
  • 所有 Z 到 Y 的后门路径都被 X 阻断

定理 3.4.1 (前门准则) 如果 Z 满足变量对 (X,Y)(X,Y) 的前门准则,且 P(x,z)>0P(x,z)>0,那么 X 对 Y 的因果效应是可识别的,计算公式如下 :

P(Y=ydo(x))=zP(zx)xP(yx,z)P(x)(14)P(Y=y|\text{do}(x))=\sum_zP(z|x)\sum_{x'}P(y|x',z)P(x')\tag{14}

  其实定义 3.4.1 中规定的条件也有些保守,后两个条件排除了一些 (从 Z 到 Y 的) 可能被其他变量阻断的后门路径,但实际也是允许的 (借助于 “do-演算” 的工具,在此不细表)。

3.5 条件干预和特定变量效应

  迄今为止所讨论的干预仅仅限于固定一个变量或者一组变量 X,并且只取一些特定的值 x。一般而言,干预是动态的,即变量 X 以指定方式响应其他变量集 Z。例如通过函数关系 x=g(z)x=g(z) 或通过一种随机关系,其中 X 依据 P(xz)P^*(x|z) 的概率取 x。为了估计这种干预的效应,需要借助另一个概念——X 的 “z-特定效应”,其写作 P(Y=ydo(X=x),Z=z)P(Y=y|\text{do}(X=x),Z=z),它度量了 Y 在总体的一个子集合中的分布,该子集合在干预后 Z 的取值为 z。下面引入计算 z-特定的简单规则。

规则 3.5.1 (z-特定效益) 如果可以找到可测变量集合 S,使集合 SZS\cup Z 满足后门准则,则 z-特定效应 P(Y=ydo(X=x),Z=z)P(Y=y|\text{do}(X=x),Z=z) 则可确定。此时,z-特定效应可由以下的校正公式获得 :

P(Y=ydo(X=x),Z=z)=zP(Y=yX=x,S=s,Z=z)P(S=sZ=z)P(Y=y|\text{do}(X=x),Z=z)\\ =\sum_zP(Y=y|X=x,S=s,Z=z)P(S=s|Z=z)

  这个修改后的校正公式近似于式 (5),但是仍有两点不同 : 首先矫正集合为 SZS\cup Z,而不仅仅是 S;其次只需对 S 的每个取值求和,不需要包括 Z。类似地,以求 P(Y=ydo(X=g(Z)))P(Y=y|\text{do}(X=g(Z))) 为例,我们以 Z=z 为条件,有

P(Y=ydo(X=g(Z)))=zP(Y=ydo(X=g(Z)),Z=z)P(Z=zdo(X=g(Z)))=zP(Y=ydo(X=g(Z)),Z=z)P(Z=z)=zP(Y=ydo(X=x),Z=z)x=g(z)P(Z=z)(15)P(Y=y|\text{do}(X=g(Z)))\\ =\sum_zP(Y=y|\text{do}(X=g(Z)),Z=z)\cdot P(Z=z|\text{do}(X=g(Z)))\\ =\sum_zP(Y=y|\text{do}(X=g(Z)),Z=z)\cdot P(Z=z)\\ =\sum_zP(Y=y|\text{do}(X=x),Z=z)|_{x=g(z)}P(Z=z)\tag{15}

3.6 逆概率加权

  机敏的读者可能已经注意到前面干预中的一个问题。后门和前门标准告诉我们能否从观察研究中获得的数据预测假设干预的结果。此外,它们还告诉我们,我们可以在不模拟干预的情况下做出预测,甚至不需要考虑干预。我们所需要做的就是确定一组满足其中一个标准协变量集合 Z,将这组协变量代入校正公式中即可,得到的表达式能够确保对于干预结果提供有效的预测。但是在实际应用中,对 Z 校正可能会产生问题。它需要分别查看 Z 的每个值或值的每一种组合,估计每种情况中给定的 X 的 Y 的条件概率,然后对于结果求平均。随着规模的增大,对 Z 的校正会产生计算上和估计上的困难。因此本节将讨论另一种更精妙的方法来克服校正的实际困难。

  该方法仅需假设对于每个 x 和 z,能够获得函数 g(x,z)=P(X=xZ=z)g(x,z)=P(X=x|Z=z) 的可靠估计,这个函数通常称为 “倾向分数”。这样的估计可以通过将函数 g(x,z)g(x,z) 的参数拟合数据来获得,与通过最小化一组样本的均方误差来拟合线性回归函数的系数基本一致。该方法的使用依赖于随机变量 X 的性质。

  假设已知函数 P(X=xZ=z)P(X=x|Z=z),我们可以使用它来生成仿真样本,这些样本似乎是从从干预后的概率 PmP_m 中提取的,而不是从 P(x,y,z)P(x,y,z) 得到的。一旦我们获得了这样的虚构样本,我们可以通过对样本中的每个 X=xX=x 分组简单地计算事件 Y=yY=y 的频率,从而计算 P(Y=ydo(X))P(Y=y|\text{do}(X))。这样,我们就跳过了对所有 Z=zZ=z 的分组和运算,这个过程本质上是将这个求和隐含在其中了。

  现在让我们来看由 do(X=x)\text{do}(X=x) 操作产生的总体数据,并讨论执行该操作后,每种情况的概率是如何变化的。校正公式可以给我们答案 :

P(Y=ydo(x))=zP(Y=yX=x,Z=z)P(Z=z)P(Y=y|\text{do}(x))=\sum_zP(Y=y|X=x,Z=z)P(Z=z)

  将求和内部的表达式乘以倾向分数 P(X=xZ=z)P(X=x|Z=z),然后再除以该分数,得到

P(Y=ydo(x))=zP(Y=yX=x,Z=z)P(X=xZ=z)P(Z=z)P(X=xZ=z)=zP(Y=y,X=x,Z=z)P(X=xZ=z)P(Y=y|\text{do}(x))=\sum_z\frac{P(Y=y|X=x,Z=z)P(X=x|Z=z)P(Z=z)}{P(X=x|Z=z)}\\ =\sum_z\frac{P(Y=y,X=x,Z=z)}{P(X=x|Z=z)}

  现在答案就变得清晰了,总体数据中的每个 (Y=y,X=x,Z=z)(Y=y,X=x,Z=z) 的概率都被因子 1P(X=xZ=z)\frac{1}{P(X=x|Z=z)} 放大了。(因此被称为“逆概率加权”) 这为我们提供了一个在有限样本情况下估计 P(Y=ydo(X=x))P(Y=y|\text{do}(X=x)) 的简单方法。如果我们使用它因子 1P(X=xZ=z)\frac{1}{P(X=x|Z=z)} 对每个样本进行加权,那么我们就可以把重新加权的样本视为来自 PmP_m 而不是 PP,并据此估计 p(Y=ydo(X))p(Y=y|\text{do}(X))。最后需要注意一点,逆概率加权法仅在因子 1P(X=xZ=z)\frac{1}{P(X=x|Z=z)} 中的集合 Z 满足后门准则时有效。

3.7 中介

  通常当一个变量引起另一个变量的变化的时候,通常有两种方式,其中一种是直接进行影响,另一种是通过中介变量来进行影响。通常情况下,知道 X 对 Y 的效应中直接因素和间接因素的比例是非常有用的。然而现实中两种因果路径的分离是困难的。

  因此,对于任意的三个变量 X、Y 和 Z,其中 Z 是 X 和 Y 的中介变量,将 X 的值从 xx 变为 xx' 后,对于 Y 的受控直接效应 (controlled direct effect CDE) 由下面的公式定义

CDE=P(Y=ydo(X=x),do(Z=z))P(Y=ydo(X=x)do(Z=z))(16)CDE=P(Y=y|\text{do}(X=x),\text{do}(Z=z))\\-P(Y=y|\text{do}(X=x')\text{do}(Z=z)) \tag{16}

3.8 线性系统中的因果推断

  我们在本书中介绍的因果方法的优点之一是,不管构成模型的方程是什么类型,它们都能起作用。d-分离和后门准则没有对任何两个变量之间关系的形式做假设,只要求关系存在即可。

  在本节中,我们将深入研究线性方程系统中的因果假设和含义,以及图形方法如何帮助我们回答这些系统中提出的因果问题。这将加强我们在非参数模型中应用的方法,并对那些希望在线性系统中应用因果推理的研究者提供有用的帮助。

  在本节使用的所有模型中,我们都强烈假设变量之间的关系是线性的,并且所有的误差项都具有高斯 (或“正态”) 分布 (在某些情况下,我们只需要假设对称分布)。这一假设极大地简化了因果分析所需的程序。它在统计学中如此受欢迎的原因是其在自然界中频繁出现,只要一个现象的宏观检测量如身高、体重、收入或死亡率等,附加上许多微小的噪声过程,这个检测量就可以满足正态分布。然而我们对正态分布的兴趣主要来源于几个正态分布变量组合形成它们联合分布的方式。正态性的假设产生了四个在处理线性系统时非常有用的性质 :

  • 高效的表示
  • 期望对概率的可替代性
  • 期望是线性的
  • 回归系数的不变性

3.8.1 结构系数与回归系数

  由于我们现在将要处理线性模型,因此,当然也要处理回归类方程,因此,定义回归方程和我们在书中 SCM 中使用的结构方程之间的区别是至关重要的。回归方程是描述性的;它没有假设因果关系。当我们写回归方程 y=r1x+r2z+ϵy=r_1x+r_2z+\epsilon,与结构方程不同的是,我们并不是说 X 和 Z 导致 Y。

  虽然回归方程本身不具有因果关系,但在研究线性系统的因果关系时仍具有重要的用途。在章节 3.2中,我们能够用条件概率来表示干预措施的效果,例如在式 (5) 的调整公式中。在线性系统中,条件概率的作用将被回归系数取代,因为这些系数表示模型蕴含的相关性,此外,它们很容易使用最小二乘分析估计。类似地,非参数化模型的可测试蕴含式以条件独立的形式表示,这些独立性在线性系统中通过消除回归系数来表示。具体来说,给定回归方程

y=r0+r1X1+r2x2++rkxk+ϵy=r_0+r_1X_1+r_2x_2+\cdots+r_kx_k+\epsilon

  如果 ri=0r_i=0,则在其他所有回归变量的条件下,Y 独立于 XiX_i

3.8.2 结构系数的因果解释

  在线性系统中,每个路径系数都代表自变量 X 对因变量 Y 的直接影响。使用 CDE 的定义 (式 (16)) 给出的干预定义,该定义要求计算当 X 增加一个单位时 Y 的变化,而 Y 的所有其他父变量保持不变。当我们将这个定义应用到任何线性系统时,不管干扰是否相关,结果将是箭头 XYX\rightarrow Y 上的路径系数。

图 3.7.说明路径系数与总效应之间关系的模型图

  在图 3.7 的模型中,对应的结构方程如下 :

X=UXZ=aX+UZW=bX+cZ+UWY=dZ+eW+UYX=U_X\\ Z=aX+U_Z\\ W=bX+cZ+U_W\\ Y=dZ+eW+U_Y

  将式 (16) 转化成期望形式,得

DE=E(Ydo(Z=z+1),do(W=w))E(Ydo(Z=z),do(W=w))DE=E(Y|\text{do}(Z=z+1),\text{do}(W=w))-E(Y|\text{do}(Z=z),\text{do}(W=w))

  这是因为 W 是 Y 在图中的另一个父结点。通过从模型中删除适当的方程来实施 do-运算,DE 中的 Z 值增加后的项变为 d(z+1)+ed(z+1)+e,Z 值增加前的项是 dz+ewdz+ew。正如预期的那样,两者之间的差异是 d,即 Z 和 Y 之间的路径系数。请注意,因为 do-运算 (式 (16)) 的定义中没有做误差项 U 之间的相关性假设,因此可以用这种形式简化方。即使误差项 UYU_YUZU_Z 相关,等式 DE=dDE=d 也是有效的,尽管这将使得 d 无法确定。还要注意的是,变量 X 以及系数 a、b 和 c 不会进入这个计算中,因为 do-运算 所需的 “操作” 将它们从模型中删除。

  这种方法非常有利于计算直接效应。然而,如果想要计算 Z 对 Y 的总影响呢?

  为了找出 X 对 Y 的总影响,首先找出从 X 到 Y 的每一条非后门路径;然后,对于每条路径,将路径上的所有系数相乘;然后把所有的乘积加起来。这种操作的原因在于 SCM 的本质。再次考虑图 3.7 中的图模型。因为我们想要找到 Z 对 Y 的总影响,我们应该首先干预 Z,删除所有指向 Z 的箭头,然后在剩下的模型中用 Z 表示 Y。有 :

Y=dZ+eW+UY=dZ+e(bX+cZ)+UY+eUW=(d+ec)Z+ebX+UY+eUWY=τZ+U,τ=d+ecY=dZ+eW+U_Y=dZ+e(bX+cZ)+U_Y+eU_W\\ =(d+ec)Z+ebX+U_Y+eU_W\\ \rightarrow Y=\tau Z+U,\tau=d+ec

3.8.3 识别结构系数和因果效应

3.8.4 线性系统的中介

  这两部分有点抽象回头看懂了补充。