《因果推断:如果》第一章学习笔记

1,247 阅读8分钟

0 感言

    最近好忙,需要看的东西好多,真的有点烦,在同时需要看很多书的时候也许换着看换着写是一种好的提升看书效率的方法,所以也开始更Causal Inferences: What if这本书,这本书是由 Miguel A. Hernan 与 James M. Robins 编写,因为懒得看英文还得翻译很麻烦 我选择使用罗家俊博士的翻译本来进行学习 (后续打算把 Brady Neal 的那本 Introduction to Causal Inference from a Machine Learning Perspective 也一并学习并写笔记,不过那个有课程的可以结合课程学习),感觉罗博士的版本还是很不错的,许多专业术语他都做了独到的翻译,有兴趣的朋友有时间不妨一看。

第一章 因果效应的定义

1.1 个体的因果效应

随机变量:在此书中,对于某一个变量, 如果人群中每一个个体的取值不尽相同,我们就把这个变量称作随机变量

    用治疗变量 A 与结果变量 Y 表征观察到的结果变量:YAY^{A},下面考虑一个简单的二分情况 A{0,1}A\in\{0,1\},对于一个个体,如果 Ya=1Ya=0Y^{a=1}\ne Y^{a=0},我们就说治疗变量 A 对结果变量 Y 有因果效应

    然而有意思的是,YAY^A 实际是我们假设所发生的结局 (指我们理想化出的一个结果,所以努力的方向就是如何处理现实中的数据使之更像理想化结果),我们称这样的 YA,Arange(A)Y^A,A\in \text{range}(A)潜在结局 (potential outcomes) 或者反事实结局 (counterfactual outcomes),以下是作者对于这两种说法的解释:一些人更偏爱“潜在结局”这一名称,因为这一名称强调了现实当中我们一般只能够观察到一种结局。另一些人则更偏爱“反事实结局”这一名称, 因为这一名称强调了这些结局可能在现实中从来不会出现 (也就是说和现实相反)。比如一个编号为 i 患者接受了 a 的治疗,则具有如下的一致性

Ai=aYia=YiA=YiA_i=a\Rightarrow Y^a_i=Y^A_i=Y_i

结论:个体的因果效应被定义为不同反事实结局之间的对比,但对每个人来说,只有一个结局能被观测到,其他反事实结局都不能被观测到。所以因为数据的缺失,个体的因果效应是不可被识别的

1.2 因果效应的均值

图表1.1.一组人在接受两种治疗的反事实结果

    现在我们研究这样一组20个人,如上表所示,如果所有人都接受治疗 (a=1a=1),那么去世的人的比例会是 Pr[Ya=1=1]=10/20=0.5\text{Pr}[Y^{a=1}=1]=10/20=0.5,同理所有人接受治疗 (a=0a=0) 对应去世的人的比例 Pr[Ya=0=1]=10/20=0.5\text{Pr}[Y^{a=0}=1]=10/20=0.5

    因此我们对于二分情况下的因果效应均值给出一个正式的定义:在一个人群中,如果 Pr[Ya=1=1]Pr[Ya=0=1]\text{Pr}[Y^{a=1}=1]\ne\text{Pr}[Y^{a=0}=1],那事件 A 就对结局 Y 存在因果效应。同时也因为字母 E 经常用来表示人群中的均值,可以将人群中非零因果效应均值定义为 E[Ya=1]E[Ya=0]E[Y^{a=1}]\ne E[Y^{a=0}]

    人群中因果效应均值为零,并不意味着个体因果效应为零,比如上表中治疗对这个人群中的12个个体有个体因果效应,因为这12个人的反事实结局 Ya=1Y^{a=1}Ya=0Y^{a=0} 不等。对其中6个人而言治疗是有害的,但对其他6个人而言,治疗是有益的。同时这也应证了因果效应均值的定义:人群中因果效应均值 E[Ya=1]E[Ya=0]E[Y^{a=1}]-E[Y^{a=0}],等于个体因果效应 Ya=1Ya=0Y^{a=1}-Y^{a=0} 的均值 E[Ya=1Ya=0]E[Y^{a=1}-Y^{a=0}],即均值的差等于差的均值。而在人群中若每个个体的因果效应都为零,我们就说极端因果零假设为真。

1.3 因果效应的量度

    以下我们给出三个方式表达零效应,这里的 (i),(ii),(iii)\text{(i),(ii),(iii)} 分别对应因果性下的风险差、风险比和比值比。

Pr[Ya=1=1]Pr[Ya=0=1]=0(i)\text{Pr}[Y^{a=1}=1]-\text{Pr}[Y^{a=0}=1]=0\tag{i}
Pr[Ya=1=1]Pr[Ya=0=1]=1(ii)\frac{\text{Pr}[Y^{a=1}=1]}{\text{Pr}[Y^{a=0}=1]}=1\tag{ii}
Pr[Ya=1=1]/Pr[Ya=1=0]Pr[Ya=0=1]/Pr[Ya=0=0]=1(iii)\frac{\text{Pr}[Y^{a=1}=1]/\text{Pr}[Y^{a=1}=0]}{\text{Pr}[Y^{a=0}=1]/\text{Pr}[Y^{a=0}=0]}=1\tag{iii}

1.4 随机变异性

    虽然我们进行了很多的讨论,但是上面的所有情况只是我们的一个抽样估计,与事实存在偏差,即不是 Pr[Ya]\text{Pr}[Y^{a}] 而是 Pr^[Ya]\widehat{\text{Pr}}[Y^{a}]。而在大数定律成立的前提下,我们将 Pr^[Ya]\widehat{\text{Pr}}[Y^{a}] 称作 Pr[Ya]\text{Pr}[Y^{a}] 的一致估计,因为样本的人数越多,Pr^[Ya]\widehat{\text{Pr}}[Y^{a}] 就越接近 Pr[Ya]\text{Pr}[Y^{a}]

    除了抽样变异性,随机性还可能来自其他地方,比如某个人的反事实结局并不是固定的。我们将反事实结局 YaY^a 定义为一个个体在治疗取值为 a 时的结局。而在之前的例子中,每个个体的反事实结局都是固定不变的。因此,在我们的因果推断中,随机性可能来源于抽样变异性或者非命定的反事实结局。在第十章之前,我们会选择忽略随机性。

1.5 因果性与相关性

图表1.2.一组人在现实中接受治疗的实际结果

    与之前的理想性反事实结果不同,我们只能认定当 Pr[Y=1A=1]=Pr[Y=1A=0]\text{Pr}[Y=1|A=1]=\text{Pr}[Y=1|A=0] 时治疗 A 与结局 Y 相互独立,也就是 A 和Y 不相关,或者说 A 不能预测 Y。独立性用符号  ⁣ ⁣ ⁣ ⁣\perp\!\!\!\!\perp 表示,A 与 Y 相互独立写作 A ⁣ ⁣ ⁣ ⁣YA\perp\!\!\!\!\perp Y,或者 Y ⁣ ⁣ ⁣ ⁣AY\perp\!\!\!\!\perp A。下面是独立性的其他等价表达,这里的 (i),(ii),(iii)\text{(i),(ii),(iii)} 分别对应相关性下的风险差、风险比和比值比。

Pr[Ya=1=1]Pr[Ya=0=1]=0(i)\text{Pr}[Y^{a=1}=1]-\text{Pr}[Y^{a=0}=1]=0\tag{i}
Pr[Ya=1=1]Pr[Ya=0=1]=1(ii)\frac{\text{Pr}[Y^{a=1}=1]}{\text{Pr}[Y^{a=0}=1]}=1\tag{ii}
Pr[Ya=1=1]/Pr[Ya=1=0]Pr[Ya=0=1]/Pr[Ya=0=0]=1(iii)\frac{\text{Pr}[Y^{a=1}=1]/\text{Pr}[Y^{a=1}=0]}{\text{Pr}[Y^{a=0}=1]/\text{Pr}[Y^{a=0}=0]}=1\tag{iii}

    对于相关性与因果性的区分,作者给出这样的阐述:区分因果性和相关性非常重要。假设医生更可能给心血管疾病高风险人群开阿司匹林,服用阿司匹林和不服用阿司匹林对5年死亡率的因果性风险比是0.5,但是相关性风险比可能是1.5。如果一个医生知道了相关性风险比,但不清楚因果性风险比,他可能就不再给高风险病人开药,但这是一个错误的做法。相关性和因果性存在根本区别

1.6 第一章中的重要点

1.6.1 干扰

    在我们对于反事实结局的定义中,有一个隐含的前提假设:一个个体在治疗取值为 a 时的结局,不受到其他个体治疗取值的影响,即其他个体的选择不会使个体选择产生偏差。然而在现实生活中,每个个体的结局都会因为社会性互动而受到其他人的干扰。

    在干扰存在的时候,个体 i 的反事实结局 YiaY_i^a 的就不再是良定的,因为这个定义需要依赖其他个体的治疗。无干扰这一假设,也被 Cox 叫作 “个体间无交互”(1958),也是 Rubin “稳重治疗” 假设 (Stable unit treatment value assumption, SUTVA) 的一部分。详情 请参考 Struchiner(1995),Sobel(2006),Rosenbaum(2007) 以及 Hudgens 和 Halloran(2009) 等人所著论文。

1.6.2 不同形式的治疗

    在我们对于个体在治疗取值为 a 的反事实结局定义中,有一个隐含的前提假设:治疗 A=aA=a 时,只存在一种治疗形式:即所有的 心脏移植手术都由同一个医生用同样的设备遵循同样的步骤进行,不存在治疗上的差异 (不同效果是由受治疗者个体因素导致)。但实际中,同一个治疗可能有不同的形式 (比如不同的医生),这也有可能导致差异。

    就如无干扰假设一样,不存在多种治疗形式也是 Rubin **“稳重治疗”**假设 (Stable unit treatment value assumption, SUTVA) 的一部分。Robin 和 Greenland(2000) 论证了如果不同形式的治疗对结局有相同的因果效应,那反事实结局 YiaY_i^a 依然是良定的。VanderWeele(2009) 将这一点正式表述为“治疗差异无关紧要”假设。

1.6.3 需治数

    假设在一亿人中,如果都接受治疗 (a=1),有二千万人会在 5 年内死亡。如果都不接受治疗 (a=0),会有三千万人在5年内死亡。 这些信息有以下等价表达:

  • 因果性风险差是 Pr[Ya=1=1]Pr[Ya=0=1]=0.1\text{Pr}[Y^{a=1}=1]-\text{Pr}[Y^{a=0}=1]=-0.1
  • 如果我们治疗全部一亿人,那要比一亿人都不治疗少死亡一千万人
  • 我们可以通过治疗一亿人来拯救一千万人
  • 平均而言,我们每治疗10个病人,就能拯救1个人

    在至少能减少一个 Y=1 病例时,需要给予治疗 a =1 的平均人数被称作需治数(NNT),NNT等于因果性风险差倒数的绝对值,即:

NNT=1Pr[Ya=1=1]Pr[Ya=0=1]\text{NNT}=\left|\frac{1}{\text{Pr}[Y^{a=1}=1]-\text{Pr}[Y^{a=0}=1]}\right|

1.6.4 人群中的因果效应

    用 E[Ya]E[Y^a] 表示人群中所有个体在治疗取值为 a 下的反事实结局均值,在离散与连续时对应公式分别为

E[Ya]=yyPYa(y)  or  E[Ya]=yfYa(y)dyE[Y^a]=\sum_yyP_{Y^a}(y)\ \ \text{or} \ \ E[Y^a]=\int yf_{Y^a}(y){\rm d}y

其中 PYa()=Pr[Ya=y]P_{Y^a}(\cdot)=\text{Pr}[Y^a=y]fYa()f_{Y^a}(\cdot)YaY^a 在两种情况下对应的概率密度函数。人群中的因果效应,也可以定义为反事实结局的其他特征的对比,比如中位数、方差或者累积分布函数,只要其能够标志反事实结局的边缘分布。与相关性概率体系一样,因果概率体系也可以找到很多衡量标准。

1.6.5 非命定的反事实

    非命定的反事实结局不会给每个个体的 YaY^a 赋一个具体的值,但会给每个个体的 YaY^a 赋一个概率分布函数 QYa()Q_{Y^a}(\cdot)。 非命定的反事实结局只是命定的反事实结局的定义的一般化。此时人群反 事实结局的均值

E[Ya]=E{E[YaΘYa()]}=E[ydΘYa(y)]=ydE[ΘYa(y)]=ydFYa(y)E[Y^a]=E\left\{E[Y^a|\Theta_{Y^a}(\cdot)]\right\}=E\left[\int y{\rm d}\Theta_{Y^a}(y)\right]=\int y{\rm d}E[\Theta_{Y^a}(y)]=\int y{\rm d}F_{Y^a}(y)

其中FYa()=E[ΘYa()]F_{Y^a}(\cdot)=E[\Theta_{Y^a}(\cdot)],在计算风险比等值的时候用加权平均替代之前的定值。