因果推断学习笔记.3:倾向得分法 (Propensity Score)

668 阅读2分钟

观测性研究中对平均因果作用(ACEACE)的估计方法:倾向得分(propensity score)、线性回归、Heckman Selection Model。本篇主要介绍倾向得分方法。线性回归和HSM可见文末附参考文献。

观测性研究中对ACE的估计方法

倾向得分

如上篇学习笔记所言,如果个体信息变量足够简单,XX为二值变量(如性别),则可以按照X=1X=1X=0X=0将样本分为两层,在每层分别估计ACEACE后再做加权平均,即可得到全体ACEACE的相合估计。但事实上,XX维数很高且可能有连续分量,因此很难将样本按XX分层。即便能分层,也会面临类别不平衡的问题。为此,Rosenbaum and Rubin(1983) 提出了倾向得分的概念。

定义:倾向得分的定义为:

e(X)=P(Z=1X)e(X)=P(Z=1|X)

且满足

  1. XZe(X)X\perp Z|e(X)
  2. 如果有强可忽略性假定(即Z(Y(1),Y(0))XZ\perp(Y(1),Y(0))|X)且e(X)(0,1)e(X)\in(0,1),则Z(Y(1),Y(0))e(X)Z\perp(Y(1),Y(0))|e(X)

分层方法

上述第二条性质表明,如果给定样本信息XX,处理机制是可忽略的,那么只需要给定一个一维的变量e(X)e(X),处理机制也是可以忽略的。这样一来,我们得到了估计ACE的分层(stratify)方法:

  • Step 1: 先拟合一个Logistic/Probit模型(自变量为XX,因变量为e(X)e(X)),估计每个个体的倾向得分e^(X)\hat{e}(X)
  • Step 2: 用估计的倾向得分e^(X)\hat{e}(X)分层(相当于把倾向得分当作个体信息),在每一层中估计平均因果作用,再加权平均即可。

加权方法

此外,Hirano, Imbens and Ridder(2003)从经验似然的角度指出了另一种“加权方法”(weighting),并证明了该方法是半参数有效的估计方法。该方法使用以下统计量作为ACEACE的估计:

ACE^=1ni=1n[YiZie^(Xi)Yi(1Zi)1e^(Xi)]\hat{ACE}=\frac{1}{n}\sum_{i=1}^{n}\left[\frac{Y_i Z_i}{\hat{e}(X_i)}-\frac{Y_i(1-Z_i)}{1-\hat{e}(X_i)}\right]

参考文献

  1. 丁鹏.因果推断简介.PKU-MATH-00112230.2019