本文正在参加 人工智能创作者扶持计划
因果推断的常用方法。
承接上文
推断因果关系:试问某种处理/因素/变量,对于个体的状态有没有影响(因果作用)?
Rubin Causal Model (RCM)
- 设Zi表示个体i接受处理与否(处理取1,对照取0);Yi表示个体i的结果变量。另外记二元组(Yi(1),Yi(0))表示个体i接受处理或对照的潜在结果(potential outcome)。那么Yi(1)−Yi(0)表示个体i接受处理的个体因果作用。
- 然而问题在于,每个个体要么接受处理,要么作为对照,因此在一次观测中(Yi(1),Yi(0))必然缺失一半,因此个体的因果作用是不可识别的(注意,这里不允许前一个时刻对照、后一个时刻处理)。从概率的角度看,i可以看成样本空间Ω中的样本点ω。但是在**Z**做随机化的前提下,我们可以识别总体的平均因果作用(Average Casual Effect, ACE):
ACE(Z→Y)=E(Yi(1)−Yi(0)).
这是因为
ACE(Z→Y)=E(Yi(1))−E(Yi(0))=E(Yi(1)∣Zi=1)−E(Yi(0)∣Zi=0)=E(Yi∣Zi=1)−E(Yi∣Zi=0)#对单个个体的全体结果变量求期望#随机化,即Z⊥(Y(1),Y(0))#表明ACE可以由观测数据估计出来
注:这里i是固定的,期望的取法是将Yi视作随机变量,对Yi取条件期望
- 上述推导表明,随机化试验对于平均因果作用的识别起着至关重要的作用。
观测性研究:可忽略性、倾向得分与回归分析
- 上一节的结论表明随机化试验对于平均因果作用的识别非常重要。然而在现实中,很多研究都是无法进行随机化试验的的(对同一个体的随机化)。在观测性研究中,通常能搜集到以下数据:个体的信息变量X(如年龄、性别)、个体是否接受处理Z(如是否吃某种新药、是否吸烟等)、个体的结果变量Y(如康复情况、肺部清洁程度等)。那么,我们可以用如下条件期望之差去估计ACE吗?
E(Y∣Z=1)−E(Y∣Z=0)
- 答案是:不能。反面教材:辛普森悖论(Yule-Simpson Paradox)
- 这就引出一个ACE的识别性问题,即通过观测数据我们能否得到ACE的相合估计。实际中,这需要一个不可验证的假定:可忽略性。
可忽略性&ACE的识别性
- 可忽略行假定:Z⊥(Y(1),Y(0))。即上文公式中的“随机化”。
- 这是一条不可验证的假定,它的存在使得我们可以通过观测数据识别ACE。然而,在观测性研究中,个体选择处理与否(Z)与其个体属性可能相关(注意,本质上,(Y(1),Y(0))也是个体属性的一部分!),上面的假定可能被破坏。但通常的方法是,收集充分多的个体信息X,使得如下的强可忽略性假定成立:
Z⊥(Y(1),Y(0))⊥X
可以证明,此时的ACE是可以识别的,因为
ACE=E(Y(1))−E(Y(0))=E[E(Y(1)∣X)]−E[E(Y(0)∣X)]=E[E(Y(1)∣X,Z=1)]−E[E(Y(0)∣X,Z=0)]=E[E(Y∣X,Z=1)]−E[E(Y∣X,Z=0)]#对全体个体的全体结果变量求期望#全期望公式
- 在上述推导中,通过全期望公式引入个体信息变量X的权重,解决了辛普森悖论的问题。接下来的问题是,如何通过上述条件期望计算ACE。目前有三种方法:
倾向得分(propensity score)
线性回归(linear regression)
Heckman Selection Model(又称Tobit Model)
参考文献
- 丁鹏.因果推断简介.PKU-MATH-00112230.2019
本文正在参加 人工智能创作者扶持计划