绪论 ——《统计因果推理入门》第一章学习笔记

628 阅读6分钟

目录与链接

《统计因果推理入门》第一章学习笔记

《统计因果推理入门》第二章学习笔记

《统计因果推理入门》第三章学习笔记

《统计因果推理入门》第四章学习笔记

0 感言

  其实之前入门的时候找的因果相关的书籍是《Causal Inference : What If》这本书,在学期开始之前也做过一章的读书笔记,但是往后读发现还是偏向于公共卫生以及医学统计,所以最后打算先看 Judea Pearl 的《Causal Inferference in Statistics》这本书,这本书相对比较简洁明了,之后再看看能不能再接再厉把 《Causality》这本读下来,然后有空再学一学实变函数加深一下相关理解。

1 绪言 : 统计及因果模型

1.1 为什么研究因果关系

1.2 辛普森悖论

  辛普森悖论 (Simpson's paradox) 指的是在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

  例 1.2.1 记录选择服药与否的 700 例患者的痊愈率,其中,服药的患者与不服药的患者各占一半。如表 1.1 所示。

患者 患者服药情况 患者未服药情况
痊愈患者数 痊愈率/% 痊愈患者数 痊愈率/%
男性患者 81/87 93 234/270 87
女性患者 192/263 73 55/80 69
合计 273/350 78 289/350 83

表 1.1.一种新药的临床实验对比 (考虑性别因素)

  在固定性别的情况下,服用该药品获得了更高的痊愈率。但是在合计中,服用该药的痊愈率反而不如不服用该药。这个问题无法简单地从统计学中得到答案,为了考察药物对患者的作用,假设我们了解到另一事实 : 雌激素对患者痊愈有负面作用。结合观察到女性患者比男性患者更难以痊愈且更倾向于被选中服用该药物,我们更应该去研究分类数据,这些数据表明药物是有益的,也更符合直觉。即合理分类的数据比未分类的数据 “更详细”,因此有更大的信息量。

图 1.1.用药情况、雌激素与痊愈状况的简单因果图

  再比如下面这个关于运动时间-胆固醇的例子。

图 1.2.不考虑年龄和考虑年龄情况下的运动时间与胆固醇的分布图

  在不考虑年龄这个因素的情况下,我们可以看到,运动时间越长,胆固醇越高。但是,如果我们考虑年龄这个因素,在相同年龄的情况下,运动时间越长,胆固醇越低

  再回到例 1.2.1 中,如果将性别男女的区分改为血压高低的区分,则可以得到和之前截然不同的结论,如表 1.2 所示

患者 患者服药情况 患者未服药情况
痊愈患者数 痊愈率/% 痊愈患者数 痊愈率/%
低血压患者 81/87 93 234/270 87
高血压患者 192/263 73 55/80 69
合计 273/350 78 289/350 83

表 1.2.一种新药的临床实验对比 (考虑血压因素)

  在本例子中,由于降低血压是药物影响痊愈率的结果之一,所以基于血压的分类并没有像之前基于性别的分类那样有效 (即提供更多的信息,我们只能看到服用该药的患者高血压的更多,该药可能对于血压存在副作用)。

1.3 概率和统计

1.3.1 概率与统计基本概念

  在本节中,作者介绍了概率和统计的基本概念,包括变量、事件、条件概率、独立性、概率分布、全概率公式、贝叶斯公式、期望值、方差与协方差。比较基础在此不多介绍。

1.3.2 回归与多元回归

一元回归

  设 y^=a^x+b\hat{y}=\hat{a}x+b,则最小二乘法对应求解即为

mina^,b^i=1n(yia^xib^)2(i=1n(yia^xib^)2)a^(1)\min_{\hat{a},\hat{b}}\sum_{i=1}^n(y_i-\hat{a}x_i-\hat{b})^2\Rightarrow \frac{\partial\left(\sum_{i=1}^n(y_i-\hat{a}x_i-\hat{b})^2\right)}{\partial\hat{a}}\tag{1}

多元回归

  不妨设 y^=i=1na^ixi+b\hat{y}=\sum_{i=1}^n\hat{a}_ix_i+b,则最小二乘法对应求解即为

mina^1,...,a^nj=1m(yji=1na^ixijb)2(2)\min_{\hat{a}_1,...,\hat{a}_n}\sum_{j=1}^m\left(y_j-\sum_{i=1}^n\hat{a}_ix_{ij}-b\right)^2\tag{2}

  对应求解类似于上式即为求解 Eq.(2)a^i\frac{\partial \text{Eq.(2)}}{\partial \hat{a}_i},在此不过多赘述。

1.4 图

  在本节中作者介绍了有向图与无向图、有环图与无环图,在此不过多赘述。

1.5 结构因果模型

1.5.1 因果假设建模

  从形式上看,因结构因果模型含有两个变量集 U 和 V,以及一组函数

f={fx:WXXXV}f=\{f_x:W_X\rightarrow X|X\in V\}

其中 WX(UV){X}W_X\subseteq\left(U\cup V\right)-\{X\},即函数 fXf_X 根据模型中其他变量的值给 X 赋值。在这里,如前所述,我们扩展了我们对因果关系的定义 : 如果 Y 出现在赋值给 X 的函数中,那么变量 Y 就是变量 X 的直接原因。如果 Y 是 X 的直接原因,或者是 X 的任何原因,那么 Y 就是 X 的原因。

  U 中的变量称为外生变量,简而言之,它们是模型外部的,我们不需要解释它们是如何产生的。V 中的变量是内生的。模型中的每个内生变量都是至少一个外生变量的后代。外生变量不能是任何其他变量的后代,特别是不能是内生变量的后代;它们没有祖先,在图中被表示为根节点。如果我们知道每个外生变量的值,那么利用函数 fXff_X\in f,我们就可以完全确定地确定每个内生变量的值。

  每个 SCM 都与一个图形因果模型相关联,非正式地称为 “图形模型” 或简单地称为 “图”。图形模型由一组表示 U 和 V 中的变量的节点和一组表示 f 中的函数的节点之间的边组成。SCM M 的图形模型 G 包含 M 中每个变量的一个节点。如果在 M 中,变量 X 的函数 fXf_X 包含变量 Y (例如 X 的值依赖于 Y),那么,在 G 中,将有一条从 Y 到 X 的有向边。我们将主要处理图形模型为有向无环图 (DAGs) 的 SCM。由于 SCM 和图形模型之间的关系,我们可以给出因果关系的图形定义 : 如果,在一个图形模型中,一个变量 X 是另一个变量 Y 的子变量,那么 Y 是 X 的直接原因;如果 X 是 Y 的后代,那么 Y 是 X 的潜在原因 (在特殊的非传递情况下,Y 不会是 X 的原因,我们将在第二部分讨论)。

  因果模型和图用这种方式将因果假设表示出来,下面给出两个简单的 SCM 的例子。

SCM 1.5.1 (学历、工龄和工资)

U={Education,Experience},V={Salary},F={fsalary}fsalary:salary=2education+3experienceU=\{\text{Education},\text{Experience}\},V=\{\text{Salary}\},F=\{f_{\text{salary}}\}\\ f_{\text{salary}}:\text{salary}=2\cdot\text{education}+3\cdot\text{experience}

SCM 1.5.2 (身高、性别和篮球成绩)

Y={height,gender,grade},U={U1,U2,U3},F={f1,f2}gender=U1height=f1(gender,U2)grade=f2(height,gender,U3)Y=\{\text{height},\text{gender},\text{grade}\},U=\{U_1,U_2,U_3\},F=\{f_1,f_2\}\\ \text{gender}=U_1\\ \text{height}=f_1(\text{gender},U_2)\\ \text{grade}=f_2(\text{height},\text{gender},U_3)

  其中 U={U1,U2,U3}U=\{U_1,U_2,U_3\} 表示未知的外部因素。我们并不知道他们是什么,但他们影响 V 中的可测变量,有时候被称为 “误差项” 或 “省略因素”,表示观察变量未知的或随机的外生变量。

1.5.2 乘积分解

乘积分解法则

  对于任何图形为非环的模型,模型中变量的联合分布由图中所有 “族” 的条件分布 P(childparents)P(\text{child}|\text{parents}) 的乘积给出。在形式上,我们将这条规则写成 (说白了就是贝叶斯链)

P(x1,x2,...,xn)=i=1nP(xipa(xi))(3)P(x_1,x_2,...,x_n)=\prod_{i=1}^n P(x_i|\text{pa}(x_i)) \tag{3}