因果推理的一大目标就是尽量消除混淆带来的偏倚(也就是那些非因果的关联关系),找出真正的因果关系,也即:因果关系发现(Causal Discovery)。
如本系列上一篇文章所述,这通常是结构因果模型(Structural Causal Model,简称SCM)解决的主要问题。
因此,本文将主要在结构因果模型的框架下进行讨论。
Prerequisites
条件独立:zhuanlan.zhihu.com/p/90984141
接合的阻断
- 对于链式接合和叉式接合,通过“以中间变量 B 为条件”(conditioning on variable B ),也即给定 B 的值,比如指定 B=1 或者指定 B=0 ,那么 A 和 C 之间路径被阻断(blocking)。
- 对于对撞接合,通过“以中间变量 B 为条件”,A 和 C 之间原本被阻断的路径反而被打开,即A 和 C 之间产生了相关性。
后门准则
定义:
- 后门路径:变量 A 和 Y 之间的后门路径就是连接 A 和 Y 但箭头不从变量 A 出发的路径。例如图2中,从变量 A 到 L 再到 Y 的路径,即 A←L→Y ,便称为 A 和 Y 之间的后门路径(backdoor path)。
- 前门路径:相应的, A→Y 就是前门路径(frontdoor path)。
后门准则:如果我们有足够的数据能够将所有A和 Y 之间的后门路径全部阻断,那么我们就可以识别(identify) A和 Y 之间的因果关系。
找出混淆因子
回答以下三个问题,如果答案均为“是”,则找到了混淆因子:
- A和Y之间是否存在混淆:等价于“A 和 Y 之间是否有一条未被阻断的后门路径”
- 从结构角度定义, L 是混淆因子吗(能否通过以某些变量为条件来阻断A 和 Y之间的后门路径):如果以某个变量 L 为条件使得变量 A 和 Y 之间的相关性发生了更改(即原来相关变为不相关、原来不相关变为相关),那么该变量 L 为A 和 Y 之间的混淆因子。
- 从传统角度定义, L 是混淆因子吗:当变量 L 满足以下三个条件时, L 便是A 和 Y之间的混杂因子:
- L 与 A 相关
- 当以 A 为条件时 L 与 Y 相关
- L 不在 A 到 Y 的因果关系路径中