因果推断学习笔记.2: Rubin Causal Model (RCM)

640 阅读3分钟

本文正在参加 人工智能创作者扶持计划

因果推断的常用方法。

承接上文

推断因果关系:试问某种处理/因素/变量,对于个体的状态有没有影响(因果作用)?

Rubin Causal Model (RCM)

  • ZiZ_i表示个体ii接受处理与否(处理取1,对照取0);YiY_i表示个体ii结果变量。另外记二元组(Yi(1),Yi(0))(Y_i(1),Y_i(0))表示个体ii接受处理或对照的潜在结果(potential outcome)。那么Yi(1)Yi(0)Y_i(1)-Y_i(0)表示个体ii接受处理的个体因果作用
  • 然而问题在于,每个个体要么接受处理,要么作为对照,因此在一次观测中(Yi(1),Yi(0))(Y_i(1),Y_i(0))必然缺失一半,因此个体的因果作用是不可识别的(注意,这里不允许前一个时刻对照、后一个时刻处理)。从概率的角度看,ii可以看成样本空间Ω\Omega中的样本点ω\omega。但是在**ZZ**做随机化的前提下,我们可以识别总体的平均因果作用(Average Casual Effect, ACE):
ACE(ZY)=E(Yi(1)Yi(0)).ACE(Z\to Y)=E(Y_i(1)-Y_i(0)).

这是因为

ACE(ZY)=E(Yi(1))E(Yi(0))#对单个个体的全体结果变量求期望=E(Yi(1)Zi=1)E(Yi(0)Zi=0)#随机化,即Z(Y(1),Y(0))=E(YiZi=1)E(YiZi=0)#表明ACE可以由观测数据估计出来\begin{aligned} ACE(Z\to Y)&=E(Y_i(1))-E(Y_i(0)) &\#\text{对单个个体的全体结果变量求期望}\\ &= E(Y_i(1)|Z_i=1)-E(Y_i(0)|Z_i=0) &\#\text{随机化,即}Z\perp(Y(1),Y(0))\\ &= E(Y_i|Z_i=1)-E(Y_i|Z_i=0) &\#\text{表明ACE可以由观测数据估计出来}\\ \end{aligned}

注:这里ii是固定的,期望的取法是将YiY_i视作随机变量,对YiY_i取条件期望

  • 上述推导表明,随机化试验对于平均因果作用的识别起着至关重要的作用。

观测性研究:可忽略性、倾向得分与回归分析

  • 上一节的结论表明随机化试验对于平均因果作用的识别非常重要。然而在现实中,很多研究都是无法进行随机化试验的的(对同一个体的随机化)。在观测性研究中,通常能搜集到以下数据:个体的信息变量XX(如年龄、性别)、个体是否接受处理ZZ(如是否吃某种新药、是否吸烟等)、个体的结果变量YY(如康复情况、肺部清洁程度等)。那么,我们可以用如下条件期望之差去估计ACEACE吗?
E(YZ=1)E(YZ=0)E(Y|Z=1)-E(Y|Z=0)
  • 答案是:不能。反面教材:辛普森悖论(Yule-Simpson Paradox
  • 这就引出一个ACEACE的识别性问题,即通过观测数据我们能否得到ACE的相合估计。实际中,这需要一个不可验证的假定:可忽略性

可忽略性&ACE的识别性

  • 可忽略行假定:Z(Y(1),Y(0))Z\perp(Y(1),Y(0))。即上文公式中的“随机化”。
  • 这是一条不可验证的假定,它的存在使得我们可以通过观测数据识别ACEACE。然而,在观测性研究中,个体选择处理与否ZZ)与其个体属性可能相关(注意,本质上,(Y(1),Y(0))(Y(1),Y(0))也是个体属性的一部分!),上面的假定可能被破坏。但通常的方法是,收集充分多的个体信息XX,使得如下的强可忽略性假定成立:
Z(Y(1),Y(0))XZ\perp(Y(1),Y(0))\perp X

可以证明,此时的ACEACE是可以识别的,因为

ACE=E(Y(1))E(Y(0))#对全体个体的全体结果变量求期望=E[E(Y(1)X)]E[E(Y(0)X)]#全期望公式=E[E(Y(1)X,Z=1)]E[E(Y(0)X,Z=0)]=E[E(YX,Z=1)]E[E(YX,Z=0)]\begin{aligned} ACE &= E(Y(1))-E(Y(0)) &\#\text{对全体个体的全体结果变量求期望}\\ &= E[E(Y(1)|X)] - E[E(Y(0)|X)] &\#\text{全期望公式} \\ &= E[E(Y(1)|X,Z=1)] - E[E(Y(0)|X,Z=0)] \\ &= E[E(Y|X,Z=1)] - E[E(Y|X,Z=0)] \\ \end{aligned}
  • 在上述推导中,通过全期望公式引入个体信息变量XX的权重,解决了辛普森悖论的问题。接下来的问题是,如何通过上述条件期望计算ACEACE。目前有三种方法:

倾向得分(propensity score) 线性回归(linear regression) Heckman Selection Model(又称Tobit Model)

参考文献

  1. 丁鹏.因果推断简介.PKU-MATH-00112230.2019

本文正在参加 人工智能创作者扶持计划