一、概述
基本规则
概率图模型使用图的形式表示概率分布,首先总结一下几个随机变量分布的一些规则:
Sum Rule : p ( x 1 ) = ∫ p ( x 1 , x 2 ) d x 2 p(x_{1})=\int p(x_{1},x_{2})\mathrm{d}x_{2} p ( x 1 ) = ∫ p ( x 1 , x 2 ) d x 2
Product Rule : p ( x 1 , x 2 ) = p ( x 1 ∣ x 2 ) p ( x 2 ) p(x_{1},x_{2})=p(x_{1}|x_{2})p(x_{2}) p ( x 1 , x 2 ) = p ( x 1 ∣ x 2 ) p ( x 2 )
Chain Rule : p ( x 1 , x 2 , ⋯ , x p ) = ∏ i = 1 p p ( x i ∣ x i + 1 , x i + 2 , ⋯ , x p ) p(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}p(x_{i}|x_{i+1},x_{i+2},\cdots ,x_{p}) p ( x 1 , x 2 , ⋯ , x p ) = ∏ i = 1 p p ( x i ∣ x i + 1 , x i + 2 , ⋯ , x p )
Bayesian Rule : P ( x 2 ∣ x 1 ) = P ( x 1 , x 2 ) P ( x 1 ) = P ( x 1 , x 2 ) ∫ P ( x 1 , x 2 ) d x 2 = P ( x 2 ) P ( x 1 ∣ x 2 ) ∫ P ( x 2 ) P ( x 1 ∣ x 2 ) d x 2 P(x_{2}|x_{1})=\frac{P(x_{1},x_{2})}{P(x_{1})}=\frac{P(x_{1},x_{2})}{\int P(x_{1},x_{2})\mathrm{d}x_{2}}=\frac{P(x_{2})P(x_{1}|x_{2})}{\int P(x_{2})P(x_{1}|x_{2})\mathrm{d}x_{2}} P ( x 2 ∣ x 1 ) = P ( x 1 ) P ( x 1 , x 2 ) = ∫ P ( x 1 , x 2 ) d x 2 P ( x 1 , x 2 ) = ∫ P ( x 2 ) P ( x 1 ∣ x 2 ) d x 2 P ( x 2 ) P ( x 1 ∣ x 2 )
简化运算的假设
在链式规则中如果数据的维度过高,就会出现计算复杂的困境,因此我们需要对此做出一些简化,以下是一些例子:
① 相互独立的假设 : P ( x 1 , x 2 , ⋯ , x p ) = ∏ i = 1 p P ( x i ) ①\; 相互独立的假设:P(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}P(x_{i}) ① 相互独立的假设 : P ( x 1 , x 2 , ⋯ , x p ) = ∏ i = 1 p P ( x i )
② 朴素贝叶斯中的条件独立性假设 : P ( x ∣ y ) = ∏ i = 1 p P ( x i ∣ y ) ②\; 朴素贝叶斯中的条件独立性假设:P(x|y)=\prod_{i=1}^{p}P(x_{i}|y) ② 朴素贝叶斯中的条件独立性假设 : P ( x ∣ y ) = ∏ i = 1 p P ( x i ∣ y )
③ M a r k o v P r o p e r t y : x j ⊥ x i + 1 ∣ x i , j < i , H M M 中的齐次 M a r k o v 假设; ③\; Markov\; Property:x_{j}\perp x_{i+1}| x_{i},j< i,HMM中的齐次Markov假设; ③ M a r k o v P ro p er t y : x j ⊥ x i + 1 ∣ x i , j < i , H MM 中的齐次 M a r k o v 假设;
④ 条件独立性假设 : x A ⊥ x B ∣ x C , x A 、 x B 、 x C 是集合,且不相交。 ④\; {\color{Red}{条件独立性假设}}:x_{A}\perp x_{B}|x_{C},x_{A}、x_{B}、x_{C}是集合,且不相交。 ④ 条件独立性假设 : x A ⊥ x B ∣ x C , x A 、 x B 、 x C 是集合,且不相交。
概率图模型的知识体系
二、有向图-贝叶斯网络
基本结构
已知联合概率分布中各个随机变量的依赖关系,可以根据拓扑排序(依赖关系)得到一个有向图。而如果已知一个有向图,可以直接得到联合概率分布的因子分解:
P ( x 1 , x 2 , ⋯ , x p ) = ∏ i = 1 p P ( x i ∣ x p a r e n t ( i ) ) P(x_{1},x_{2},\cdots ,x_{p})=\prod_{i=1}^{p}P(x_{i}|x_{parent(i)}) P ( x 1 , x 2 , ⋯ , x p ) = i = 1 ∏ p P ( x i ∣ x p a re n t ( i ) )
在局部的任何三个节点,可以有以下三种结构:
这种结构满足:
A ⊥ C ∣ B ⇔ 若 B 被观测,则路径被阻塞。 A\perp C|B\Leftrightarrow 若B被观测,则路径被阻塞。 A ⊥ C ∣ B ⇔ 若 B 被观测,则路径被阻塞。
阻塞也就是独立的意思。
通过因子分解和链式规则可以进行证明:
P ( A , B , C ) = P ( A ) P ( B ∣ A ) P ( C ∣ B ) ⏟ 因子分解 = P ( A ) P ( B ∣ A ) P ( C ∣ B , A ) ⏟ 链式法则 ⇒ P ( C ∣ B ) = P ( C ∣ B , A ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( C ∣ A , B ) P ( A ∣ B ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( C , A ∣ B ) ⇒ C ⊥ A ∣ B P(A,B,C)=\underset{因子分解}{\underbrace{P(A)P(B|A)P(C|B)}}=\underset{链式法则}{\underbrace{P(A)P(B|A)P(C|B,A)}}\\ \Rightarrow P(C|B)=P(C|B,A)\\ \Rightarrow P(C|B)P(A|B)=P(C|A,B)P(A|B)\\ \Rightarrow P(C|B)P(A|B)=P(C,A|B)\\ \Rightarrow C\perp A|B P ( A , B , C ) = 因子分解 P ( A ) P ( B ∣ A ) P ( C ∣ B ) = 链式法则 P ( A ) P ( B ∣ A ) P ( C ∣ B , A ) ⇒ P ( C ∣ B ) = P ( C ∣ B , A ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( C ∣ A , B ) P ( A ∣ B ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( C , A ∣ B ) ⇒ C ⊥ A ∣ B
这种结构满足:
A ⊥ C ∣ B ⇔ 若 B 被观测,则路径被阻塞。 A\perp C|B\Leftrightarrow 若B被观测,则路径被阻塞。 A ⊥ C ∣ B ⇔ 若 B 被观测,则路径被阻塞。
通过因子分解和链式规则可以进行证明:
P ( A , B , C ) = P ( A ∣ B ) P ( B ) P ( C ∣ B ) ⏟ 因子分解 = P ( B ) P ( A ∣ B ) P ( C ∣ A , B ) ⏟ 链式法则 ⇒ P ( C ∣ B ) = P ( C ∣ A , B ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( C ∣ A , B ) P ( C ∣ B ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( A , C ∣ B ) ⇒ C ⊥ A ∣ B P(A,B,C)=\underset{因子分解}{\underbrace{P(A|B)P(B)P(C|B)}}=\underset{链式法则}{\underbrace{P(B)P(A|B)P(C|A,B)}}\\ \Rightarrow P(C|B)=P(C|A,B)\\ \Rightarrow P(C|B)P(A|B)=P(C|A,B)P(C|B)\\ \Rightarrow P(C|B)P(A|B)=P(A,C|B)\\ \Rightarrow C\perp A|B P ( A , B , C ) = 因子分解 P ( A ∣ B ) P ( B ) P ( C ∣ B ) = 链式法则 P ( B ) P ( A ∣ B ) P ( C ∣ A , B ) ⇒ P ( C ∣ B ) = P ( C ∣ A , B ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( C ∣ A , B ) P ( C ∣ B ) ⇒ P ( C ∣ B ) P ( A ∣ B ) = P ( A , C ∣ B ) ⇒ C ⊥ A ∣ B
这种结构满足:
默认情况下,A ⊥ C A\perp C A ⊥ C ,路径是阻塞的。
若B B B 被观测,则路径是通的。
如果B B B 仍然有后继节点,则如果后继节点被观测,路径也是通的。
通过因子分解和链式规则可以进行证明:
P ( A , B , C ) = P ( A ) P ( C ) P ( B ∣ A , C ) ⏟ 因子分解 = P ( A ) P ( C ∣ A ) P ( B ∣ A , C ) ⏟ 链式法则 ⇒ P ( C ) = P ( C ∣ A ) ⇒ A ⊥ C P(A,B,C)=\underset{因子分解}{\underbrace{P(A)P(C)P(B|A,C)}}=\underset{链式法则}{\underbrace{P(A)P(C|A)P(B|A,C)}}\\ \Rightarrow P(C)=P(C|A)\\ \Rightarrow A\perp C P ( A , B , C ) = 因子分解 P ( A ) P ( C ) P ( B ∣ A , C ) = 链式法则 P ( A ) P ( C ∣ A ) P ( B ∣ A , C ) ⇒ P ( C ) = P ( C ∣ A ) ⇒ A ⊥ C
D划分(D-Seperation)
对于 3 个集合 A 、 B 、 C A 、 B 、 C A 、 B 、 C ,判断其是否满足条件独立性假设 ( x A ⊥ x B ∣ x C , x A 、 x B \left(x_A \perp x_B \mid x_C , x_A 、 x_B\right. ( x A ⊥ x B ∣ x C , x A 、 x B 、 x C x_C x C 是集合,且不相交。) 可以通过D划分这种方法。
D划分是一种判定的方式,其规则是对于上述head to tail以及tail to tail的关系,引入集合 A A A 、 B B B ,那么满足 x A ⊥ x B ∣ x C x_A \perp x_B \mid x_C x A ⊥ x B ∣ x C 的 C C C 集合中的元素与 A 、 B A 、 B A 、 B 中的元素的关系满足head to tail 或tail to tail的关系,而满足head to head关系的元素不在 C C C 中。下图展示了满足条件独立性的 3 个集合的有向图:
马尔可夫毯(Markov Blanket)
现在来看一下以下概率:
P ( x i ∣ x − i ) = P ( x i , x − i ) P ( x − i ) = P ( x ) ∫ x − i P ( x ) d x i = ∏ j = 1 p P ( x j ∣ x p a r e n t ( j ) ) ∫ x i ∏ j = 1 p P ( x j ∣ x p a r e n t ( j ) ) d x i P(x_{i}|x_{-i})=\frac{P(x_{i},x_{-i})}{P(x_{-i})}=\frac{P(x)}{\int _{x_{-i}}P(x)\mathrm{d}x_{i}}=\frac{\prod_{j=1}^{p}P(x_{j}|x_{parent(j)})}{\int _{x_{i}}\prod_{j=1}^{p}P(x_{j}|x_{parent(j)}) \mathrm{d}x_{i}} P ( x i ∣ x − i ) = P ( x − i ) P ( x i , x − i ) = ∫ x − i P ( x ) d x i P ( x ) = ∫ x i ∏ j = 1 p P ( x j ∣ x p a re n t ( j ) ) d x i ∏ j = 1 p P ( x j ∣ x p a re n t ( j ) )
在上式中, x − i x_{-i} x − i 指的是从 x x x 中剔除 x i x_i x i 剩下的部分。分子分母可以将与 x i x_i x i 无关的 P ( x j ∣ x parent ( j ) ) P\left(x_j \mid x_{\text {parent }(j)}\right) P ( x j ∣ x parent ( j ) ) 提出来然后约掉,也就是说 x i x_i x i 与 x − i x_{-i} x − i 的关系只与 P ( x i ∣ x parent ( i ) ) P\left(x_i \mid x_{\text {parent }(i)}\right) P ( x i ∣ x parent ( i ) ) 和 P ( x child ( i ) ∣ x i , x otherparent ) P\left(x_{\text {child }(i)} \mid x_i, x_{\text {otherparent }}\right) P ( x child ( i ) ∣ x i , x otherparent ) 有关,即只与 x i x_i x i 的父节点, x i x_i x i 的子节点以及 x i x_i x i 子节点的其 父节点有关,这些节点就叫做马尔可夫毯 (Markov Blanket) 。画图表示如下:
具体模型
实际应用的模型中,对这些条件独立性作出了假设,从单⼀到混合,从有限到⽆限(时间,空间)可以分为:
{ 单一: N a i v e B a y e s 混合: G M M 时间: { M a r k o v C h a i n G a u s s i a n P r o c e s s 连续: G a u s s i a n B a y e s i a n N e t w o r k \begin{aligned}
\left\{\begin{matrix} 单一:Naive Bayes\\ 混合:GMM\\ 时间:\left\{\begin{matrix} Markov\; Chain\\ Gaussian\; Process \end{matrix}\right.\\ 连续:Gaussian\; Bayesian\; Network \end{matrix}\right.
\end{aligned} ⎩ ⎨ ⎧ 单一: N ai v e B a yes 混合: GMM 时间: { M a r k o v C hain G a u ss ian P rocess 连续: G a u ss ian B a yes ian N e tw or k
GMM 与时序结合的动态模型:
HMM(离散)
线性动态系统 LDS(Kalman 滤波)
粒子滤波(非⾼斯,非线性)
三、无向图-马尔可夫网络(马尔可夫随机场)
全局、局部、成对马尔可夫性
马尔可夫随机场的条件独立性体现在三个方面:
①全局马尔可夫性
②局部马尔可夫性
③成对马尔可夫性
全局、局部、成对马尔可夫性是相互等价的,也就是说可以相互推出来。
在无向图中给定三个集合 A 、 B 、 C A 、 B 、 C A 、 B 、 C ,在无向图中如果满足给定 x C x_C x C 的条件下, x A x_A x A 和 x B x_B x B 相互独立,即 x A ⊥ x B ∣ x C x_A \perp x_B \mid x_C x A ⊥ x B ∣ x C ,则满足全局马尔可夫性。
在图中的判定方法为从 A A A 中节点到 B B B 中节点的任何路径上都至少有一个位于 C C C 中的节点:
局部马尔可夫性是指给定一个变量x x x 的所有邻接变量,则x x x 独立于任何其他变量,即:
x ⊥ ( X − N e i g h b o r ( x ) − x ) ∣ N e i g h b o r ( x ) x\perp (X-Neighbor(x)-x)|Neighbor(x) x ⊥ ( X − N e i g hb or ( x ) − x ) ∣ N e i g hb or ( x )
举例来说,在下图中,x ⊥ { e , f } ∣ { b , c , d } x\perp \left \{e,f\right \}|\left \{b,c,d\right \} x ⊥ { e , f } ∣ { b , c , d } :
成对马尔可夫性是指给定所有其他变量,两个非邻接 变量条件独立,即:
x i ⊥ x j ∣ x − i − j , i ≠ j , x i 、 x j 不相邻 x_{i}\perp x_{j}|x_{-i-j},i\neq j,x_{i}、x_{j}不相邻 x i ⊥ x j ∣ x − i − j , i = j , x i 、 x j 不相邻
因子分解
引入团的概念:
团,最大团:图中节点的集合,集合中的节点之间全部互相连接的叫做团,如果不能再添加任何节点,就叫做最大团。
最大团的概念可以参考数据结构中的极大连通子图 。
将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作,称为概率无向图模型的因子分解 。
给定概率无向图模型,C i , i = 1 , 2 , ⋯ , k C_i,i=1,2,\cdots ,k C i , i = 1 , 2 , ⋯ , k 为无向图模型上的最大团,则x x x 的联合概率分布P ( x ) P(x) P ( x ) 可以写为:
P ( x ) = 1 Z ∏ i = 1 k ψ ( x C i ) C i :最大团 x C i :最大团随机变量集合 ψ ( x C i ) :势函数,必须为正 Z = ∑ x ∏ i = 1 k ψ ( x C i ) = ∑ x 1 ∑ x 2 ⋯ ∑ x p ∏ i = 1 k ψ ( x C i ) P(x)=\frac{1}{Z}\prod_{i=1}^{k}\psi (x_{C_{i}})\\ C_{i}:最大团\\ x_{C_{i}}:最大团随机变量集合\\ \psi (x_{C_{i}}):势函数,必须为正\\ Z=\sum _{x}\prod_{i=1}^{k}\psi (x_{C_{i}})=\sum _{x_{1}}\sum _{x_{2}}\cdots \sum _{x_{p}}\prod_{i=1}^{k}\psi (x_{C_{i}}) P ( x ) = Z 1 i = 1 ∏ k ψ ( x C i ) C i :最大团 x C i :最大团随机变量集合 ψ ( x C i ) :势函数,必须为正 Z = x ∑ i = 1 ∏ k ψ ( x C i ) = x 1 ∑ x 2 ∑ ⋯ x p ∑ i = 1 ∏ k ψ ( x C i )
对于势函数,通常使用 ψ ( x C i ) = exp { − E ( x C i ) } \psi\left(x_{C_i}\right)=\exp \left\{-E\left(x_{C_i}\right)\right\} ψ ( x C i ) = exp { − E ( x C i ) } ,当使用这个势函数时,
P ( x ) = 1 Z ∏ i = 1 k ψ ( x C i ) P(x)=\frac{1}{Z} \prod_{i=1}^k \psi\left(x_{C_i}\right) P ( x ) = Z 1 ∏ i = 1 k ψ ( x C i ) 就叫做吉布斯分布(Gibbs Distribution),或者玻尔兹曼分布(Boltzmann Distribution) 。进一步观察一下这个分布:
P ( x ) = 1 Z ∏ i = 1 k ψ ( x C i ) = 1 Z ∏ i = 1 k exp { − E ( x C i ) } = 1 Z exp { − ∑ i = 1 k E ( x C i ) } ⏟ 指数族分布形式 \begin{aligned}
& P(x)=\frac{1}{Z} \prod_{i=1}^k \psi\left(x_{C_i}\right) \\
= & \frac{1}{Z} \prod_{i=1}^k \exp \left\{-E\left(x_{C_i}\right)\right\} \\
= & \underbrace{\frac{1}{Z} \exp \left\{-\sum_{i=1}^k E\left(x_{C_i}\right)\right\}}_{\text {指数族分布形式 }}
\end{aligned} = = P ( x ) = Z 1 i = 1 ∏ k ψ ( x C i ) Z 1 i = 1 ∏ k exp { − E ( x C i ) } 指数族分布形式 Z 1 exp { − i = 1 ∑ k E ( x C i ) }
也就是说吉布斯分布满足指数族分布的形式,于是满足最大熵原理 。
“开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 6 天,点击查看活动详情 ”