本文正在参加 人工智能创作者扶持计划
上一篇的综述论文读的比较懵。为此,从这一篇开始记录Judea Pearl的Causal Inference in Statistics: A Primer的阅读笔记,将经典的因果推断理论基础打好后再考虑机器学习领域的因果推断。
结构因果模型
- 结构因果模型(Structural Causal Model, SCM) 结构因果模型使用有向图(通常为有向无环图,Directed Acyclic Graph, DAG)来建模变量间的因果关系。
基本概念
- 外源变量(exogenous variables):处在模型之外(指模型中没有指向它的原因变量)的变量,无需建模其他变量指向它的因果。在因果有向图中,外源变量全部为根节点。外源变量一般充当内源变量的误差项(在模型建模的因果关系外影响内源变量取值的因素)。
- 内源变量(endogenous variables):模型内(建模)的变量。每个内源变量被至少一个外源变量指向(存在有向边)。
- 映射函数 :从原因变量到结果变量的映射函数,解释因果关系如何产生作用。
乘积分解规则
- 乘积分解规则(rule of product decomposition) 使用因果变量间的条件概率的乘积分解所有变量的联合概率:
其中表示变量的父节点变量的取值。例如,已知链状有向因果图,则它们的取值的联合概率为:
有向图模型
- 结构因果模型中的有向图模型及其应用 根据图的构型,将有向图模型分为三类:
- Chains:,链状连接
- Forks:,一个原因变量决定所有结果变量。其中那唯一的原因变量被称作common cause
- Colliders:,所有原因变量决定一个结果变量(碰撞节点,collision node)
graph TB
Ux1((Ux1))
X1((X1))
Uy1((Uy1))
Y1((Y1))
Uz1((Uz1))
Z1((Z1))
Ux2((Ux2))
Uy2((Uy2))
X2((X2))
Y2((Y2))
Uz2((Uz2))
Z2((Z2))
Ux3((Ux3))
X3((X3))
Uy3((Uy3))
Y3((Y3))
Uz3((Uz3))
Z3((Z3))
X1-->Y1
Y1-->Z1
X2-->Y2
X2-->Z2
X3-->Z3
Y3-->Z3
Ux1-->X1
Uy1-->Y1
Uz1-->Z1
Ux2-->X2
Uy2-->Y2
Uz2-->Z2
Ux3-->X3
Uy3-->Y3
Uz3-->Z3
上图从左到右每个连通图依次为Chains, Forks, Colliders。其中U*表示外源变量。
Chains & Forks & Colliders 中的三条独立性规则
R1. Chains中的条件独立性:给定两个变量和,称它们在给定变量时是独立的,如果和之间只有一条单向路径,并且该路径被截断。
解释:如果且到的路径只有这一条,那么他俩就是关于条件独立的。
R2. Forks中的条件独立性:如果变量是变量和变量的唯一原因变量,那么变量和是关于条件独立的。
理解:当固定时,唯一影响和的取值的只有它们各自的外源变量和。由于和是独立的(外源变量不依赖于任何其他变量),因此和是条件独立的。
R3. Colliders中的条件独立性:如果变量是和的碰撞节点,并且和之间只有这一条路径(注意,不仅是有向路径),那么和在无条件时是独立的,但在给定或的任意后继节点时是条件不独立的。
理解:R3是对因果关系的研究中极其重要的一条规则!它可以理解为,如果结果变量是固定的,那么当的值改变时,需要改变的值,从而补偿对造成的影响。例如一次考试包含理论、实验两部分。那么“总分”就是“理论分”和“实验分”的碰撞节点。如果总分固定,且某人的理论分较高,那么它的实验分必须较低从而使总分固定,反之亦然。那么理论分和实验分就是关于总分条件不独立的。
有向分离&有向连接(d-*)
- 有向分离:d-seperation(‘d’的意思是directional)用于识别节点对处于的状态(有向分离态或有向连接态)的过程。
- 有向连接态:d-connected,表示存在连接两个节点的路径。有向连接态的节点对是不独立(一个依赖另一个)的。
- 有向分离态:d-seperated,表示不存在连接两个节点的路径。有向分离态的节点对一定是独立的。
判断一对节点是否是有向分离态的,其方法在于判断连接它们的所有路径(注意,不是有向路径)是否都是阻断的(blocked)。如果所有路径都是阻断的,那么此二者就是有向分离态的,否则它们是有向连接态的。
- 如果“依赖性”不能从某个节点沿着经过节点(对不取条件)的路径传递到另一个节点,那么称阻断这条路径。
- 被阻断的对象是连接两个节点的一条路径,而不是两个节点。
- 如果节点是节点和的一条路径上的碰撞节点(collider),那么必然是能够阻断这条路径的。
除了碰撞节点,还有满足以下条件的节点能够阻断一条路径:
- 如果我们对一个节点集取条件(即固定节点集中的变量的值),且节点满足:
- 是碰撞节点且,且的任意后继节点都不属于
- 且是一个chain或fork的中间节点
满足上述任意一种条件的节点都能阻断条件中提及的路径。
基于“阻断”的定义,我们可以给出有向分离的定义:
定义(有向分离,d-separation):一条路径能够被一个节点集阻断,当且仅当:
- 包含chain 或fork 使得中间节点(即取条件),或
- 包含collider 使得碰撞节点,且的任意后继节点都不属于。
若上述节点集阻断节点和之间的所有路径,那么称和是关于有向分离的(d-separated, conditional on ),因此是关于条件独立的。
参考文献
- Judea Pearl, Madlyn Glymour, Nicholas P.Jewell.Causal Inference in Statistics: A Primer.2016.WILEY
本文正在参加 人工智能创作者扶持计划