机器学习概率图—概率分布和因子分解

1,438 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第19天,点击查看活动详情

概率分布

联合概率(Joint Distribution)

  • Intelligence(I) (i0,i1)(i^0,i^1)
  • Difficulty(D) (d0,d1)(d^0,d^1)
  • Grade(G) (g1(A),g2(B),g3(C))(g^1(A),g^2(B),g^3(C))

这里 Intelligence 表示智力,不同学生智力虽然约有差异,i0i^0 表示普通智力水平,而i1i^1 则表示不同于常人的高智商。Difficulty 则表示课程的难易程度,d0d^0 表示容易而 d1d^1 表示比较难的课程。Grade 这里表示成绩,这里成绩主要分为 3 类,分别为 g1g^1g2g^2g3g^3 其中 g1g^1 这是最好成绩,以此类推。

joint_distribution.png

这里 Intelligence 有 2 个取值、Difficulty 也有 2 个取值,Grade 则有 3 个取值,所以一共 2×2×32 \times 2 \times 3 也就是 12 种组合。

条件概率(Conditioning)

屏幕快照 2022-06-12 下午7.29.14.png

P(I,Dg1)P(I,D|g^1)

也就是已知随机变量 GG 取值为 g1g^1,也就是我们观测到一个学生拿到 A 也就是 g1g^1,所以我们就可以仅保留随机变量 G 取值为 g1g^1 的条目。不过现在我们看下面表格中概率分布求和并不满足为 1,所以需要对概率进行归一化,也就是将 prob. 值进行求和

屏幕快照 2022-06-12 下午7.42.18.png

这样得到 0.447 然后再用每一个概率值除以归一化值 0.447 后得到概率再次求和就为 1 了,如下

屏幕快照 2022-06-12 下午7.42.44.png

求边缘概率

IDProb
i0i^0d0d^00.282
i0i^0d1d^10.02
i1i^1d0d^00.564
i1i^1d1d^10.134

求解边缘概率也比较简单就是 GP(I,D,G)\sum_G P(I,D,G) 得到上面 P(I,D)P(I,D) 概率

因子分解

Factor 这里也称为因子,其实所谓因子就是一个函数 既然因子可以作为函数,输入是 X1,,XkX_1,\cdots,X_k 随机变量对应取值,输出是一个实数

ϕ(X1,,Xk)ϕ:Val(X1,,Xk)R \phi(X_1,\cdots,X_k)\\ \phi:Val(X_1,\cdots,X_k) \in \mathbb{R}

作用域为

X1,,XK{X_1,\cdots,X_K}

上面联合分布 P(I,D,G)P(I,D,G) 就是一个因子,也就是随机变量 I、D 和 G 随机变量取值的组合,输出是一个实数,

joint_distribution.png

对于随机变量 I、D 和 G 不同值组合可以得到一个概率值,其实因子输出的值并不一定是一个概率值。

例如条件概率 P(I,Dg1)P(I,D|g^1) 也是一个因子,作用域为 I,DI,D

屏幕快照 2022-06-12 下午7.29.14.png

因为在这里 g1g^1 可以视为一个常量,所以作用域为 I,DI,D

条件概率分布

在概率图中,条件概率分布是一个非常重要的概念。因为概率图研究的是随机变量之间的联系,而且条件概率是可以表示在给定其他概率条件某一个条件概率分布,例如 I 和 D 每一个取值组合条件下 G 的概率分布情况。

g1g^1g2g^2g3g^3
i0,d0i^0,d^00.30.40.3
i0,d1i^0,d^10.050.250.7
i1,d0i^1,d^00.90.080.02
i1,d1i^1,d^10.50.30.2

我们来看最下面一行表示含义,也就是对于智力比较高i1i^1和课程比较难i1i^1 要取得 A、B 和 C 成绩概率分别是 0.5、0.3 和 0.2。

ABϕ\phi
a0a^0b0b^030
a0a^0b1b^15
a1a^1b0b^01
a1a^1b1b^110

其实这里并不是一定所有 A 和 B 组合得到值是概率值,可以是普通的值,也就是因子的值是一个实数,这里作用域时 A 和 B。

因子计算

  • 因子相乘(Factor Product)
  • 因子求和(Factor Marginalization)