因果推断(二):因果关系发现

317 阅读2分钟

因果推理的一大目标就是尽量消除混淆带来的偏倚(也就是那些非因果的关联关系),找出真正的因果关系,也即:因果关系发现(Causal Discovery)

如本系列上一篇文章所述,这通常是结构因果模型(Structural Causal Model,简称SCM)解决的主要问题。

因此,本文将主要在结构因果模型的框架下进行讨论。

Prerequisites

接合:juejin.cn/post/742071…

条件独立:zhuanlan.zhihu.com/p/90984141

接合的阻断

image.png

  • 对于链式接合和叉式接合,通过“以中间变量 B 为条件”(conditioning on variable B ),也即给定 B 的值,比如指定 B=1 或者指定 B=0 ,那么 A 和 C 之间路径被阻断(blocking)。
  • 对于对撞接合,通过“以中间变量 B 为条件”,A 和 C 之间原本被阻断的路径反而被打开,即A 和 C 之间产生了相关性。

后门准则

定义:

  • 后门路径:变量 A 和 Y 之间的后门路径就是连接 A 和 Y 但箭头不从变量 A 出发的路径。例如图2中,从变量 A 到 L 再到 Y 的路径,即 A←L→Y ,便称为 A 和 Y 之间的后门路径(backdoor path)。
  • 前门路径:相应的, A→Y 就是前门路径(frontdoor path)。

image.png

后门准则:如果我们有足够的数据能够将所有A Y 之间的后门路径全部阻断,那么我们就可以识别(identify) A Y 之间的因果关系。

找出混淆因子

回答以下三个问题,如果答案均为“是”,则找到了混淆因子:

  • AY之间是否存在混淆:等价于“A 和 Y 之间是否有一条未被阻断的后门路径”
  • 从结构角度定义, L 是混淆因子吗(能否通过以某些变量为条件来阻断A 和 Y之间的后门路径):如果以某个变量 L 为条件使得变量 A 和 Y 之间的相关性发生了更改(即原来相关变为不相关、原来不相关变为相关),那么该变量 L 为A 和 Y 之间的混淆因子。
  • 从传统角度定义, L 是混淆因子吗:当变量 L 满足以下三个条件时, L 便是A 和 Y之间的混杂因子:
    • L 与 A 相关
    • 当以 A 为条件时 L 与 Y 相关
    • L 不在 A 到 Y 的因果关系路径中

参考链接