本文为《A Survey on Causal Inference》的简要概述第一部分,大多是名词定义,这部分主要摘录自zhuanlan.zhihu.com/p/554682071
基本概念
1.因果推断常见概念
因果推断(Causal Inference) 是根据某一结果发生的条件对因果关系作出刻画的过程,推断因果关系的最有效方法是进行随机对照试验,但这种方式耗时且昂贵、也无法解释和刻画个体差异;因此考虑从观察数据中进行因果推断,这类框架包括潜在结果框架和结构因果模型,下文对结构因果模型的因果推理方法进行综述。
- 相关性(correlation) :刻画变量关系,当两个变量(variables)显示出增加或减少的趋势时,它们是相关的;
- 因果性(Causality) :也称为cause and effect,其中原因(cause)对结果(effect)部分负责,而结果(effect)部分取决于原因(cause);
- 因果推断(Causal Inference): 根据某一结果发生的条件对因果关系作出刻画的过程;与相关性推理(inference of correlation)的主要区别在于前者分析的是当原因(cause)发生变化时结果变量(effect variable)的反馈;
- 随机对照试验(randomized controlled trial) :将参与者随机分配到实验组或对照组,实验时两组的唯一差异是正在研究的结果变量(outcome variable)。
- 潜在结果框架(potential outcome framework) :为衡量吃早餐的因果效应,需比较同一人在两种情况下的结果。显然不可能同时看到两种潜在结果,并且总缺少其中一种潜在结果。潜在结果框架旨在估计此类潜在结果,然后计算行为效果。 因此行为效果估计是潜在结果框架下因果推理的核心问题之一;
- 结构因果模型(structural causal model) :描述了系统的因果机制,其中一组变量及其之间的因果关系由一组联立的结构方程建模;
2.潜在结果框架概念
- Unit:行为效果研究中的原子研究对象,本文中术语"样本"和"单位"可以互换使用;
- Treatment:对分析对象Unit执行的行为集合;
- Potential outcome:潜在结果,对于每个样本-行为对,该行为在应用时的结果(outcome);
- Observed outcome:观测结果,也称为事实结果,即实际采取的行为;
- Counterfactual outcome:实际采取的是观测结果,其余未观察到的潜在结果是反事实结果;
- Pre-treatment variables: 指不受行为影响的变量,也称为背景变量(background variables),可以是患者的人口统计信息、病史等,用X表示预处理变量;
- post-treatment variables: 受行为影响的变量,一个例子是中间结果(intermediate outcome),例如前面提到的药物例子中服用药物后的lab test;
- Treatment Effect:行为效果,可在整个Unit集合、子组等上面进行观测,整个群体行为效果层面定义为ATE=E[Y(W=1)-Y(W=0)] ,Y(W=1)和Y(W=0)分别为整个人群的实验组和对照组结果,个体行为效果为ITEi=Yi(W=1)-Yi(W=0) ,类似的定义实验组行为效果为ATT=E[Y(W=1)|W=1]-E[Y(W=1)|W=0] 、子组行为效果为CATE=E[Y(W=1)|X=x]-E[Y(W=1)|X=x] ;
- 混杂因素(Confounders): 是影响行为分配和结果的变量,混杂因素是一些特殊的pre-treatment variables;
3.潜在结果框架示例
- 场景: 利用一份过往的治疗记录数据,来衡量几种不同药物在不同剂量水平下的治疗效果差异。
- 数据: 治疗记录数据,包括患者的人口属性,患者当初使用的特定剂量下的特定药物,以及患者的治疗效果。
- 现实: 每个患者只有一种特定剂量水平下的特定药物的记录,该药物的其他剂量水平和其他药物的任何剂量水平都是未知的,即反事情结果。
- 挑战: 我们需要通过这样的数据,推断出所有的反事实结果,进而精确的计算ATE、ATT、CATE等指标。
上述示例中unit是患有所研究疾病的患者,treatment是指针对这种疾病的特定剂量的不同药物;用W(W∈{0,1,2,....,NW})来表示这些treatment,例如Wi=1可以表示unit i服用特定剂量的药物A,而Wi=2表示unit i服用特定剂量的药物B。Y是结果,如可以测量药物破坏疾病并导致患者康复的能力的一种血液检查。令Yi(W=1)表示特定剂量的药物A对患者i的潜在结果。患者特征包括年龄、性别、临床表现和其他一些医学检查等。这些特征中年龄、性别和其他人口统计信息是pre-treatment variables。一些临床表现和医学检查会受服药影响,它们是post-treatment variables。
问题挑战
三个基本假设如下:
- 1.SUTVA(Stable Unit Treatment Value Assumption) :样本-行为值稳定性假设,任何样本(unit)的潜在结果不会随着分配给其他样本(unit)的行为而变化; 即样本(unit)之间没有相互作用,且行为应是单一性的,上例中不同剂量的药物A在SUTVA假设下是不同的行为。
- 2.可忽略性(Ignorability):给定背景变量X,行为分配W独立于潜在结果(策略分配与策略会产生的潜在结果是独立的) ;也称为无混杂性假设(unconfoundedness assumption),有了这种无混杂性假设,对于具有相同背景变量X的单元,他们的处理分配可以被视为随机的。
- 积极性(Positivity).对于任何X值,treatment assignment都不是确定性的; 如果对于X的某些值,行为分配是确定性的;那么对于这些值永远无法观察到至少一种行为的结果。这种情况下将无法估计行为效果且毫无意义。
1.虚假效应
上文说过行为效果估计是潜在结果框架下因果推理的核心问题之一,如果对某一特定组(子组、治疗组或整个群体/the subgroup, the treated group, or the whole population)的潜在结果感兴趣,可以通过取观察结果对该组的期望来获得潜在结果,基于上述假设,观测结果和潜在结果间的关系可以重写为:
根据上式,我们可以将2.1节定义的treatment effect重写为:
其中Yi(W=1)和Yi(W=0)是unit i的潜在治疗/对照组结果,N是整个人群中的unit总数,NT是治疗组中的unit数,Nx是X=x的组中的单元数。ATE、ATT和CATE方程中的第二行是它们的经验估计(empirical estimations)。根据经验,ATE可估计为整个人群的ITE平均值。类似地ATT和CATE可以分别估计为治疗组和特定子组的ITE平均值。然而由于不可能同时观察到潜在实验/对照组结果,行为效果估计的关键是如何估计ITE估计中的反事实结果。
如上所述,如何估计特定组(specific group)的平均潜在实验/对照组结果(average potential treated/control outcome)是因果推理的核心。以ATE为例:在估计ATE时,一个自然的想法是直接使用观察到的实验/对照组结果的平均值:
其中NT,NC分别是实验组和对照组的Unit数。但由于混杂因素(confounders)的存在,这个估计存在一个严重的问题:这个计算的ATE包含混杂因素带来的虚假效应。例如医学示例中的年龄。当直接使用观察到的实验/对照组结果的平均值时,计算的ATE不仅包括treatment对结果的影响,还包括混杂因素对结果的影响,从而导致虚假效应(spurious effect) 。解释一下上文示例,年龄是一个混杂因素。年龄影响康复率:一般来说,年轻患者比老年患者有更好的康复机会。年龄也会影响治疗选择:年轻患者可能更喜欢服用药物A,而老年患者更喜欢药物B,或对于相同药物,年轻患者与老年患者的剂量不同。观测数据如表1所示,根据上式估算ATE:
其中NA和NB是分别服用药物A和B的患者人数。然而我们不能断定治疗A比治疗B更有效,因为接受治疗A组的高平均康复率可能是由于该组中的大多数患者(350人中有270人)是年轻患者。因此年龄对康复率的影响是虚假效应,因为它被错误地计入了治疗对结果的影响。
2.选择偏差
选择偏差:观察组的分布不能代表我们感兴趣的组的现象(观测到的数据与我们目标数据分布不一致) ,即p(Xobs)≠p(X∗),其中p(Xobs)和p(X∗)分别是观察组和感兴趣组中的变量分布。混杂变量(confounder variables)会影响个体的策略选择(units' treatment choices),从而导致选择偏差。例如CVR预估中使用点击空间的样本数据训练模型,却将模型应用在展现空间进行推理,这种样本选择偏差(SSB) 问题会损害训练模型的泛化性能。
解决方案
为解决虚假效应问题,应该考虑混杂变量对结果的影响。沿着这个方向的一般方法首先估计混杂变量条件下的治疗效果,然后根据其分布对混杂变量进行加权平均:
其中X∗是一组X值,p(X∈X∗)是X∗中的背景变量在整个群体中的概率;{i:xi∈X∗,Wi=w}是其样本的子组背景变量值属于X∗并且行为(treatment)等于w。
对于选择偏差问题,有两种通用方法来解决。第一种通用方法通过创建一个近似于试验组的伪组(pseudo group)来处理选择偏差。可能方法包括样本重新加权、匹配、基于树的方法、混杂平衡、平衡表示学习方法、基于多任务的方法(sample re-weighting, matching, tree-based methods, confounder balancing, balanced representation learning methods, multi-task based methods)。核心思想是通过创建的伪组减轻了选择偏差的负面影响,可以获得更好的反事实结果估计。另一种通用方法首先仅根据观察到的数据训练基础潜在结果估计模型(base potential outcome estimation models),然后纠正由选择偏差引起的估计偏差(estimation bias) ,基于元学习的方法属于这一类。上述方法中只介绍样本重加权,这在预估纠偏中是使用较多的方式,对其他方法感兴趣可关注原文;
**1.基于三种假设-**重加权(Re-weighting)方法
以重加权(Re-weighting)方法为例,由于混杂因素的存在,实验组(treated group)和对照组(control group)的协变量(covariate)分布不同,这导致了选择偏差问题。换句话说,行为策略分配(treatment assignment)与观察数据中的协变量相关。样本重加权(Sample re-weighting)是克服选择偏差的有效方法。通过为观察数据中的每个样本分配适当权重,可以创建一个伪总体(pseudo-population),在该伪总体上实验组和对照组的分布相似。该方法中一个关键概念是平衡分数(balancing score) ,在平衡得分的条件下,策略分配与样本的其他变量是独立的;
倾向得分(Propensity score):给予背景变量下行为策略的条件概率分布;倾向评分表明给定一组观察到的协变量,一个样本(unit)被分配到特定行为策略(treatment)的概率,结合倾向评分的平衡评分是最常见的方法;
(1).基于倾向评分的样本重加权(Propensity score based sample re-weighting) :倾向得分可以通过基于这些协变量的对等组来减少选择偏差(Propensity scores can be used to reduce selection bias by equating groups based on these covariates)。反倾向加权(IPW,Inverse propensity weighting) 也被称为反概率处理加权(IPTW,inverse probability of treatment weighting),给每个样本分配一个权重r:
式中W为行为策略分配(W=1表示实验组;W=0为对照组),e(x)为Eqn.9中定义的倾向评分。重加权后平均处理效果(ATE)的IPW估计量为:
以及它的归一化版本,尤其是当倾向得分是通过估计得到时:
大样本和小样本理论都表明,对标量倾向得分的调整足以消除由于所有观察到的协变量引起的偏差(Both large and small sample theory show that adjustment for the scalar propensity score is enough to remove bias due to all observed covariates);倾向得分可用于平衡实验组和对照组的协变量,因此可以通过匹配(matching)、分层-stratification(子分类-subclassification)、回归调整(regression adjustment)或所有三者的某种组合来减少偏差。然而实际应用中,IPW估计的正确性高度依赖于倾向评分估计的正确性,倾向评分稍有偏差就会导致ATE估计的显著误差;为解决这一难题提出双鲁棒估计器(DR,Doubly Robust estimator) ,也被称为增强IPW(Augmented IPW, AIPW)。DR估计器将倾向评分加权与结果回归相结合,因此即使倾向评分或结果回归中的一个不正确(但不是两个都不正确),估计器也是健壮的(robust)。其中DR估计量形式化为:
其中m^(1, xi)和m^(0, xi)是实验组和对照组结果的回归模型估计(regression model estimations of treated and control outcomes)。如果倾向得分正确或模型正确反映结果中观察和混杂之间的真实关系,则DR估计量是一致且渐近无偏的(The DR estimator is consistent and therefore asymptotically unbiased, if either the propensity score is correct or the model correctly reflects the true relationship among exposure and confounders with the outcome);现实中,绝对不能保证一个模型是否能准确解释变量之间的关系。结果回归与倾向得分加权相结合可确保估计量对这些模型的某些指定错误具有鲁棒性;