因果推断(一):基础概念入门

140 阅读5分钟

首先需要回答的问题是:为什么需要因果推断?机器学习可以解决一切问题吗?

image.png

误导算法的原因是左边的数据中包含了刹车指示灯的信息,算法错误地建立了刹车指示灯与踩刹车动作之间的关联关系,误以为只要刹车指示灯亮了,就应该踩刹车。而右边的数据中没有刹车指示灯的信息,算法只能聚焦于窗外的行人,从而碰巧建立了正确的关系。事实证明,关注窗外的行人而不是刹车指示灯才是正确的决策。这其中的根源在于,刹车指示灯是刹车动作的“果”,而不是刹车动作的“因”,窗外的行人才是刹车动作的“因” 。可是,如果只用深度学习来训练数据,又怎么可能学得到这背后的因果逻辑呢?这也让人们逐渐意识到,并不是数据越多越好、特征越多越接近真相,方向错了就很难得到正确的解答。

因果推断解决的两个主要问题是:因果关系发现和因果效应评估。

  • 因果关系发现(Causal Discovery):研究变量两两之间是否有因果关系?如果有,谁是因谁是果?
  • 因果效应评估(Causal Effect Estimatation):研究“因”的改变能带来多少”果”的变化。

常见的两大理论框架,分别对应上述两个问题:

  • 结构因果模型(Structural Causal Model,简称SCM):主要解决的问题是因果关系发现(Causal Discovery) ,也可以定量地进行因果效应评估。
    • 优点:以因果图的形式展现,推导变量之间的因果关系,更加直观。
    • 缺点:变量较多、关系复杂时,构建困难。
  • 潜在结果框架(Potential Outcome Framework):也被称为Rubin Causal Model(简称RCM),潜在结果框架主要解决的问题是因果效应评估(Causal Effect Estimatation) ,研究“因”的改变能带来多少“果”的变化,即通过学习因果效应(causal effect)来确定某个具体的干预(Treatment)对应的结果(Outcome)的变化,估计不同干预下的潜在结果(包括反事实结果),以估计实际的干预效果。
    • 优点:淡化因果关系,关注因果效应的评估。
    • 缺点:没有系统的论证变量是否存在因果关系。

本系列文章将结合两类框架进行讨论。

辛普森悖论

image.png

从数据上很好理解,虽然在轻症和重症中,B疗法都更优(死亡率低);但是A疗法的样本中,轻症病人更多,因此整体死亡率低于B疗法。

关键问题是:基于这个数据,我们应该如何选择疗法(哪个疗法更优)?

要回答这个问题,我们需要知道病情和疗法的因果关系。定义病情C、疗法T、死亡率Y。

场景一:病情是疗法的因

image.png

此时,更严重的病情将更有可能接受B疗法(例如,由于B疗法的稀缺,医生倾向于将资源留给重症病人)。即,病情C混淆了疗法T对死亡率Y的影响。纠正混淆的方法,是控制混淆变量(病情C),即,研究相同病情的人中,疗法的死亡率。因此,B疗法更优。

场景二:疗法是病情的因

image.png

此时,B疗法可能导致更多的重症患者,进而导致更高的死亡率(例如,病人需要等待更长时间才能接受治疗)。因此,综合来看A疗法更优。

“相关不等于因果”

经典示例

  • 气压计数越高,台风越严重:不能通过改变计数影响台风
  • 买雪糕的人越多,出现游泳事故的次数越多:不能通过禁买雪糕减少事故
  • 巧克力销量越高,离婚率越高:不能通过禁售巧克力,降低离婚率

image.png

混淆(Counfounding)是指存在一个变量X(混淆因子),该变量构成了T和Y的共同原因;如果忽略了X的影响,那么T和Y之间就存在假性相关关系:即T并非Y产生的直接原因。

实际上,存在三种接合(junction) / 路径:链式(chain)、叉式(fork)、反叉式/对撞(inverted fork/collider)。所有的贝叶斯网络(或者因果图)都可以拆解为不同接合模块的组合。

image.png

  • 对于链式和叉式接合,节点 A 和 C 是相关的,链式接合是因为信息从 A 流到了 C ,叉式接合中 A 和 C 本没有相关性,而是因为有了 B 这个混杂因子而让 A 和 C 有了相关性;
  • 对于对撞接合,节点 A 和 C 是相互独立的。

总结:在这三种路径中,哪些节点之间是有相关性的呢?如果两个节点分别位于路径的两端,那么如果有信息流向这两个节点,或者有信息从一个节点流向另一个节点,那么这两个节点就是相关的。

因此,如果一条从 A C 的路径中出现了对撞接合,那么 A C 就不可能是相关的(至少针对这条路径而言,如果有别的路径那再另说)。但是如果固定对撞子B,A和C可能呈现相关性。例如人的才华和外貌并无相关性,但都可能导致一个人出名。如果固定为名人,则才华和外貌可能呈现负相关。

潜在结果

image.png

相关概念:

  • 单元(Unit)
  • 干预(Treatment)
  • 潜在结果(Potential outcome)
  • 事实结果(Factual outcome)
  • 反事实结果(Counterfactual outcome)

在实际中,我们只能得到一个干预后的潜在结果,因为我们不能同时让一个人吃药又不吃药。因此,需要考虑群体的因果效应。

image.png

当存在一个混淆变量时,C会对T有影响。然而,如果采用随机控制实验(RCT),使得C与T无关,则上述两个等式是相等的。

image.png

然而,如果无法进行随机控制实验,则需要通过观测数据,推测因果关系。具体方法暂不展开,可参考:zhuanlan.zhihu.com/p/351283791

参考链接