前言
五一节狠狠耍了几天,所以学的有些不太认真,哈哈。最后EM算法如果看不太懂的话我建议可以跳过,如果不想跳的话可以动手算算就清楚了
第七章
本章学习贝叶斯分类器 ,需要大家掌握贝叶斯定理 :
P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) ⇒ P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(AB) = P(A|B)P(B) = P(B|A)P(A) \ \Rightarrow \ P(A|B) = \frac{P(B|A)P(A)}{P(B)} P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) ⇒ P ( A ∣ B ) = P ( B ) P ( B ∣ A ) P ( A )
若{ A 1 , A 2 , … , A n } \{A_1, A_2, \dots, A_n\} { A 1 , A 2 , … , A n } 是样本空间Ω \Omega Ω 的一个划分 ,则可通过全概率公式 计算P ( B ) P(B) P ( B ) :
P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B) = \sum_{i=1}^{n} P(B|A_i)P(A_i) P ( B ) = i = 1 ∑ n P ( B ∣ A i ) P ( A i )
7.1 贝叶斯决策论
贝叶斯决策论是基于概率实施决策 的方法,其核心目标是在所有相关概率已知的理想情况下 ,找到对样本的最优分类策略。假设我们有一个包含 d d d 个特征的数据集,特征向量表示为 x = ( x 1 , x 2 , … , x d ) T \mathbf{x} = (x_1, x_2, \dots, x_d)^{T} x = ( x 1 , x 2 , … , x d ) T ,存在 N N N 个可能的类别 Y = { c 1 , c 2 , … , c N } \mathcal{Y} = \{c_1, c_2, \dots, c_N\} Y = { c 1 , c 2 , … , c N } 。定义误判损失 λ i j \lambda_{ij} λ ij 为将真实类别c j c_{j} c j 的样本错误分类为c i c_{i} c i 的代价,则样本x \mathbf{x} x 被分类为c i c_{i} c i 的条件风险 (期望损失)为:
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_{i}|\mathbf{x})=\sum_{j=1}^{N}\lambda_{ij}P(c_{j}|\mathbf{x}) R ( c i ∣ x ) = j = 1 ∑ N λ ij P ( c j ∣ x )
其中后验概率 P ( c j ∣ x ) P(c_{j}|\mathbf{x}) P ( c j ∣ x ) 表示已知样本x \mathbf{x} x 时属于类别c j c_{j} c j 的概率。我们的目标是找到映射函数h : X → Y h:\mathcal{X} \rightarrow \mathcal{Y} h : X → Y 以最小化总体风险 :
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=\mathbb{E}_{\mathbf{x}}[R(h(\mathbf{x})|\mathbf{x})] R ( h ) = E x [ R ( h ( x ) ∣ x )]
根据贝叶斯判定准则 ,对每个x \mathbf{x} x 选择使条件风险最小的类别,即最优分类器为:
h ∗ ( x ) = arg min c ∈ Y R ( c ∣ x ) h^{*}(\mathbf{x})=\arg\min_{c \in \mathcal{Y}} R(c|\mathbf{x}) h ∗ ( x ) = arg c ∈ Y min R ( c ∣ x )
此时h ∗ h^{*} h ∗ 称为贝叶斯最优分类器 ,R ( h ∗ ) R(h^{*}) R ( h ∗ ) 为贝叶斯风险 ,其补集1 − R ( h ∗ ) 1-R(h^{*}) 1 − R ( h ∗ ) 代表理论最大分类精度 。当采用0-1损失函数 λ i j = 1 − δ i j \lambda_{ij}=1-\delta_{ij} λ ij = 1 − δ ij 时,条件风险可直接展开简化为:
R ( c i ∣ x ) = 1 − P ( c i ∣ x ) \begin{align}
R(c_{i}|\mathbf{x}) &= 1-P(c_{i}|\mathbf{x})
\end{align} R ( c i ∣ x ) = 1 − P ( c i ∣ x )
推导中利用了∑ j = 1 N P ( c j ∣ x ) = 1 \sum_{j=1}^{N}P(c_{j}|\mathbf{x})=1 ∑ j = 1 N P ( c j ∣ x ) = 1 的性质。此时最小化风险等价于最大化后验概率 :
h ∗ ( x ) = arg max c ∈ Y P ( c ∣ x ) h^{*}(\mathbf{x})=\arg \max_{c \in \mathcal{Y}}P(c|\mathbf{x}) h ∗ ( x ) = arg c ∈ Y max P ( c ∣ x )
对于部分模型(决策树、BP神经网络等)他们是直接学习条件概率分布( P ( y ∣ x ) ) (P(y|\mathbf{x})) ( P ( y ∣ x )) ,或者说直接学习一个决策边界,这种模型可以直接得到后验概率P ( c ∣ x ) P(c|\mathbf{x}) P ( c ∣ x ) ,称为判别式模型;而有些模型会学习数据的联合概率分布P ( x , y ) P(\mathbf{x},y) P ( x , y ) ,试图理解每个类别的数据是如何生成的 ,通过贝叶斯定理来计算后验概率,称为生成式模型。很明显,我们这个模型就是生成式模型,需要考虑贝叶斯定理
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) P(c|\mathbf{x})=\frac{P(c)P(\mathbf{x}|c)}{P(\mathbf{x})} P ( c ∣ x ) = P ( x ) P ( c ) P ( x ∣ c )
其中p ( c ) p(c) p ( c ) 是类别的先验概率,P ( x ∣ c ) P(\mathbf{x}|c) P ( x ∣ c ) 是类别c c c 下出现x \mathbf{x} x 的概率,称为似然,P ( x ) P(\mathbf{x}) P ( x ) 就是x \mathbf{x} x 出现的概率称为证据。对于所有类别c c c 来说,P ( x ) P(\mathbf{x}) P ( x ) 没有任何区别,所以最终后验概率转为了P ( c ) P(c) P ( c ) 和P ( x ∣ c ) P(\mathbf{x}|c) P ( x ∣ c ) 的h ∗ ( x ) = arg max c ∈ Y P ( x ∣ c ) P ( c ) h^*(\mathbf{x}) = \arg\max_{c \in \mathcal{Y}} P(\mathbf{x}|c) P(c) h ∗ ( x ) = arg max c ∈ Y P ( x ∣ c ) P ( c ) 。
对于先验概率P ( c ) P(c) P ( c ) 估计是比较简单的,假设我们的训练集 D D D 包含 ∣ D ∣ |D| ∣ D ∣ 个样本,其中属于类别 c c c 的样本子集为 D c D_c D c ,其包含 ∣ D c ∣ |D_c| ∣ D c ∣ 个样本,一共有K K K 类。那么,假设样本足够大时,根据大数定律P ( c ) P(c) P ( c ) 就是:
P ( c ) ≈ ∣ D c ∣ ∣ D ∣ P(c) \approx \frac{|D_c|}{|D|} P ( c ) ≈ ∣ D ∣ ∣ D c ∣
简单来说,就是类别 c c c 的样本在训练集中所占的比例。但这里我们尝试采用极大似然估计 估计P ( c ) P(c) P ( c ) 来介绍这种方法。
极大似然估计(MLE)是一个通用的参数估计方法: MLE 的目标是找到一组参数值,使得观察到当前这组数据的概率(即似然)最大化 ,它可以应用于各种模型的参数估计。
以P ( c ) P(c) P ( c ) 为例,将估计P ( c ) P(c) P ( c ) 视为一个MLE问题 ,我们假设一组参数向量θ c \theta_{c} θ c 唯一确定了该样本的分布,即参数是概率本身 θ c = P ( c ) \theta_{c}=P(c) θ c = P ( c ) ,满足约束条件∑ c θ c = 1 \sum_{c}\theta_{c}=1 ∑ c θ c = 1 。观测到当前数据集的似然函数为:
L ( θ ∣ D ) = P ( D ∣ θ ) ∝ ∏ c = 1 K θ c ∣ D c ∣ L(\boldsymbol{\theta}|D) = P(D|\boldsymbol{\theta}) \propto \prod_{c=1}^K \theta_c^{|D_c|} L ( θ ∣ D ) = P ( D ∣ θ ) ∝ c = 1 ∏ K θ c ∣ D c ∣
其中省略了组合数常数项 (不影响极值求解)。面对连乘形式的似然函数,常规处理方式是取对数 :
L ( θ ∣ D ) = ln L ( θ ∣ D ) = ∑ c = 1 K ∣ D c ∣ ln θ c \mathcal{L}(\boldsymbol{\theta} | D) = \ln L(\boldsymbol{\theta} | D) = \sum_{c=1}^K |D_{c}| \ln \theta_c L ( θ ∣ D ) = ln L ( θ ∣ D ) = c = 1 ∑ K ∣ D c ∣ ln θ c
接着采用拉格朗日乘子法 ,构建拉格朗日函数(注意约束条件):
J ( θ , λ ) = ∑ c = 1 K ∣ D c ∣ ln θ c − λ ( ∑ c = 1 K θ c − 1 ) \mathcal{J}(\boldsymbol{\theta}, \lambda) = \sum_{c=1}^K |D_c| \ln \theta_c - \lambda \left( \sum_{c=1}^K \theta_c - 1 \right) J ( θ , λ ) = c = 1 ∑ K ∣ D c ∣ ln θ c − λ ( c = 1 ∑ K θ c − 1 )
通过标准推导最终得到MLE估计量 :
θ ^ c M L E = ∣ D c ∣ ∣ D ∣ \hat{\theta}_c^{MLE} = \frac{|D_c|}{|D|} θ ^ c M L E = ∣ D ∣ ∣ D c ∣
这正是所需的经验频率估计 结果。
注:原书中以P ( x ∣ c ) P(\mathbf{x}|c) P ( x ∣ c ) 为例说明最大似然估计,但因其后续未使用该结果,此处改用P ( c ) P(c) P ( c ) 作为示例,二者核心推导思想完全一致 。
原来在贝叶斯网上用到了,但我懒得改了,大家动手自己算一遍吧
7.2 朴素贝叶斯分类器
回到贝叶斯决策,P ( c ) P(c) P ( c ) 的估计 已经给出,现在还需计算P ( x ∣ c ) P(\mathbf{x}|c) P ( x ∣ c ) 。将其展开为P ( x 1 , x 2 , … , x d ∣ c ) P(x_{1},x_{2},\dots,x_{d}|c) P ( x 1 , x 2 , … , x d ∣ c ) ,即所有特征的联合分布概率。若所有属性为离散型且每属性有k k k 种取值,则x \mathbf{x} x 的组合数高达k d k^{d} k d 种。要准确估计P ( x ∣ c ) P(\mathbf{x}|c) P ( x ∣ c ) 的分布,需极大样本量 ,这在实际中往往不可行。为此,朴素贝叶斯分类器 引入特征条件独立性假设 :给定类别c c c 时,所有特征x 1 , x 2 , … , x d x_1, x_2, \dots, x_d x 1 , x 2 , … , x d 相互独立。其数学形式为:
P ( x ∣ c ) = P ( x 1 , x 2 , … , x d ∣ c ) ⇒ 假设 ∏ i = 1 d P ( x i ∣ c ) P(\mathbf{x}|c) = P(x_1, x_2, \dots, x_d | c) \stackrel{\text{假设}}{\Rightarrow} \prod_{i=1}^d P(x_i|c) P ( x ∣ c ) = P ( x 1 , x 2 , … , x d ∣ c ) ⇒ 假设 ∏ i = 1 d P ( x i ∣ c )
因此h ∗ ( x ) = arg max c ∈ Y P ( x ∣ c ) P ( c ) h^*(\mathbf{x}) = \arg\max_{c \in \mathcal{Y}} P(\mathbf{x}|c) P(c) h ∗ ( x ) = arg max c ∈ Y P ( x ∣ c ) P ( c ) 可以转为
h n b ( x ) = arg max c ∈ Y P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{nb}(\mathbf{x})=\arg \max_{c \in \mathcal{Y}} P(c)\prod_{i=1}^d P(x_i|c) h nb ( x ) = arg c ∈ Y max P ( c ) i = 1 ∏ d P ( x i ∣ c )
注意这里的x i \mathbf{x}_{i} x i 指的是属性而不是某个样本更不是属性值,不要和之前的地方混淆,另外h n b h_{nb} h nb 的下标缩写指的是朴素贝叶斯(Naive Bayes)。
对于离散属性
令v i , k v_{i,k} v i , k 表示第i i i 个特征取值为k k k ,k max = L i k_{\max}=L_{i} k m a x = L i 为第i i i 个特征能够取到L i L_{i} L i 个值,D c , i , k D_{c,i,k} D c , i , k 是c c c 类别中第i i i 个特征值取值为k k k 的样本集合。类条件概率的估计为
P ( x i = v i , k ∣ c ) = ∣ D c , i , k ∣ ∣ D c ∣ P(x_{i}=v_{i,k}|c) = \frac{|D_{c,i,k}|}{|D_{c}|} P ( x i = v i , k ∣ c ) = ∣ D c ∣ ∣ D c , i , k ∣
但存在零概率问题:若v i , k v_{i,k} v i , k 在类别c c c 中未出现(即∣ D c , i , k ∣ = 0 |D_{c,i,k}|=0 ∣ D c , i , k ∣ = 0 ),会导致∏ i = 1 d P ( x i ∣ c ) = 0 \prod_{i=1}^d P(x_i|c)=0 ∏ i = 1 d P ( x i ∣ c ) = 0 。拉普拉斯修正 通过引入伪计数解决该问题,修正后的估计式为
P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + K P ^ ( x i = v i , k ∣ c ) = ∣ D c , i , k ∣ + 1 ∣ D c ∣ + L i \begin{align}
\hat{P}(c) &= \frac{|D_{c}|+1}{|D|+K} \\
\hat{P}(x_{i}=v_{i,k}|c) &= \frac{|D_{c,i,k}|+1}{|D_{c}|+L_{i}}
\end{align} P ^ ( c ) P ^ ( x i = v i , k ∣ c ) = ∣ D ∣ + K ∣ D c ∣ + 1 = ∣ D c ∣ + L i ∣ D c , i , k ∣ + 1
其中K K K 为类别总数,L i L_{i} L i 为第i i i 个特征的取值数。
对于连续属性
常常假设属性服从高斯分布N ( μ i , c , σ i , c 2 ) \mathcal{N}(\mu_{i,c}, \sigma^2_{i,c}) N ( μ i , c , σ i , c 2 ) ,其参数通过样本均值和方差估计:
μ ^ i , c = 1 ∣ D c ∣ ∑ x ∈ D c x i σ ^ i , c 2 = 1 ∣ D c ∣ ∑ x ∈ D c ( x i − μ ^ i , c ) 2 \begin{align}
\hat{\mu}_{i,c} &= \frac{1}{|D_c|}\sum_{\mathbf{x} \in D_c} x_i \\
\hat{\sigma}^2_{i,c} &= \frac{1}{|D_c|}\sum_{\mathbf{x} \in D_c} (x_i - \hat{\mu}_{i,c})^2
\end{align} μ ^ i , c σ ^ i , c 2 = ∣ D c ∣ 1 x ∈ D c ∑ x i = ∣ D c ∣ 1 x ∈ D c ∑ ( x i − μ ^ i , c ) 2
类条件概率密度为
P ( x i ∣ c ) = 1 2 π σ ^ i , c 2 exp ( − ( x i − μ ^ i , c ) 2 2 σ ^ i , c 2 ) {P}(x_i|c) = \frac{1}{\sqrt{2\pi\hat{\sigma}^2_{i,c}}} \exp\left(-\frac{(x_i - \hat{\mu}_{i,c})^2}{2\hat{\sigma}^2_{i,c}}\right) P ( x i ∣ c ) = 2 π σ ^ i , c 2 1 exp ( − 2 σ ^ i , c 2 ( x i − μ ^ i , c ) 2 )
7.3 半朴素贝叶斯分类器
朴素贝叶斯分类器的假设条件是属性之间完全独立 ,这一强假设在现实中往往难以满足。为此,半朴素贝叶斯分类通过弱化独立性假设 来改进模型,其核心思想是允许每个特征 x i x_i x i 最多依赖于一个或少数几个其他特征 (称为父属性 p a i pa_i p a i )。此时分类目标仍为最大化:
h ∗ ( x ) = arg max c ∈ Y P ( x ∣ c ) P ( c ) h^*(\mathbf{x}) = \arg\max_{c \in \mathcal{Y}} P(\mathbf{x}|c) P(c) h ∗ ( x ) = arg c ∈ Y max P ( x ∣ c ) P ( c )
但类条件概率改写为:
P ( x ∣ c ) ∝ ∏ i d P ( x i ∣ c , p a i ) P(\mathbf{x}|c) \propto \prod_{i}^d P(x_{i}|c,pa_{i}) P ( x ∣ c ) ∝ i ∏ d P ( x i ∣ c , p a i )
独依赖估计 (ODE)是最简单的实现方式,其中三种典型方法如下:
SPODE (Super-Parent ODE)
核心思想 :所有属性均依赖同一个超父属性 ,该属性通过交叉验证等模型选择方法确定。
公式 :P ( x ∣ c ) = P ( x 1 , x 2 , … , x d ∣ c ) = P ( p a i ∣ c ) ∏ j ≠ i d P ( x j ∣ c , p a i ) ) P(\mathbf{x}|c)=P(x_{1},x_{2},\dots,x_{d}|c)=P(pa_{i}|c)\prod_{j\neq i}^{d}P(x_{j}|c,pa_{i})) P ( x ∣ c ) = P ( x 1 , x 2 , … , x d ∣ c ) = P ( p a i ∣ c ) ∏ j = i d P ( x j ∣ c , p a i ))
局限性 :虽然引入依赖关系,但全局共享单一父属性 的设定可能过于简化。
用了P ( x ∣ y ) = P ( x 1 , … , x d ∣ y ) = P ( x 1 ∣ y ) P ( x 2 ∣ y , x 1 ) P ( x 3 ∣ y , x 1 , x 2 ) … P ( x d ∣ y , x 1 , … , x d − 1 ) P(\mathbf{x}|y) = P(x_1, \dots, x_d | y) = P(x_1|y) P(x_2|y, x_1) P(x_3|y, x_1, x_2) \dots P(x_d|y, x_1, \dots, x_{d-1}) P ( x ∣ y ) = P ( x 1 , … , x d ∣ y ) = P ( x 1 ∣ y ) P ( x 2 ∣ y , x 1 ) P ( x 3 ∣ y , x 1 , x 2 ) … P ( x d ∣ y , x 1 , … , x d − 1 ) 和假设立刻得到公式
TAN (Tree-Augmented Naive Bayes)
核心思想 :允许每个特征 x i x_i x i 拥有不同的父特征 p a i pa_i p a i ,但依赖关系必须构成树状结构 (即除根节点外,每个节点仅有一个父节点)。
构建方法 :
计算类别 c c c 下任意两个属性 x i , x j x_{i}, x_{j} x i , x j 之间的依赖关系时,采用条件互信息 (Conditional Mutual Information)。其意义是:在已知类别变量 c c c 的条件下,观测到 x j x_j x j 的值能为推断 x i x_i x i 的值提供多少额外信息量 (反之对 x j x_j x j 同理)。该关系的数学表示为 I ( x i ; x j ∣ c ) I(x_i; x_j \mid c) I ( x i ; x j ∣ c ) ,其值越大,表明在给定类别后,这两个属性间的统计依赖性越强 。因此,该度量结果可直接作为后续图模型中边的权重 。
I ( x i , x j ∣ y ) = ∑ x i , x j ; c ∈ Y P ( x i , x j ∣ c ) log ( P ( x i , x j ∣ c ) P ( x i ∣ c ) P ( x j ∣ c ) ) I(x_{i},x_{j}|y)=\sum_{x_{i},x_{j};c \in \mathcal{Y}}P(x_{i},x_{j}|c)\log\left( \frac{P(x_{i},x_{j}|c)}{P(x_{i}|c)P(x_{j}|c)} \right) I ( x i , x j ∣ y ) = ∑ x i , x j ; c ∈ Y P ( x i , x j ∣ c ) log ( P ( x i ∣ c ) P ( x j ∣ c ) P ( x i , x j ∣ c ) )
以d d d 个属性作为结点构建完全图,任意两个结点之间的边的权重设为条件互信息
在带权完全图 上应用最大生成树算法 ,寻找权重总和达到全局最大值 的树
为了明确无向树中哪个是父节点 (p a i pa_i p a i ),哪个是子节点 (x i x_i x i ),任意选择一个节点作为根节点 ,从根节点开始,将树中所有的边赋予方向,使它们都背离根节点 。
最后引入类别结点,增加类别结点到每个属性结点的有向边
比较 :相比SPODE,TAN能更灵活地捕捉特征间的局部依赖关系。但它比朴素贝叶斯和 SPODE 计算量更大。
AODE (Aggregated One-Dependence Estimators)
核心思想 :基于SPODE,认为每个属性都可以成为超父属性,构建那些具有足够训练数据支持的SPODE集成起来作为最后结果
公式 :P ( c ∣ x ) ∝ ∑ i = 1 s.t. N ( x i ) ≥ m d ( P ( c , x i ) ∏ j = 1 d P ( x j ∣ c , x i ) ) P(c|\mathbf{x}) \propto \sum_{i=1 \text{ s.t. } N(x_i) \ge m}^d \left( {P}(c, x_i) \prod_{j=1}^d {P}(x_j | c, x_i) \right) P ( c ∣ x ) ∝ ∑ i = 1 s.t. N ( x i ) ≥ m d ( P ( c , x i ) ∏ j = 1 d P ( x j ∣ c , x i ) )
其中N ( x i ) N(x_i) N ( x i ) 是属性值x i x_{i} x i 在训练集出现的次数,m m m 是一个阈值,一般取30 30 30 ,用于避免使用出现次数过少的特征作为超父导致估计不准
比较 :不需要选择模型,易于实现增量学习,但是计算量更大
以上都是基于独依赖 的方法,如果希望更好的泛化性能可以让依赖的属性个数不再只有1 1 1 个,但这会带来指数级的计算量以及对训练集数量的要求。
7.4 贝叶斯网
半朴素贝叶斯分类器确实比朴素分类器进步,但他们依旧受限于依赖假设,我们希望找到一种更通用灵活的方法,这就是贝叶斯网 (Bayesian Network, BN)。
一个贝叶斯网络的“骨架”是一个有向无环图 (DAG),我们记作G = ( V , E ) G = (V, E) G = ( V , E ) 。
节点V V V : 图 G G G 中的每一个节点都代表系统中的一个随机变量。我们通常用 X 1 , X 2 , … , X d X_1, X_2, \dots, X_d X 1 , X 2 , … , X d 来表示这 d d d 个变量(节点)。
有向边E E E : 图 G G G 中的一条从节点 X i X_i X i 指向节点 X j X_j X j 的边(记作 X i → X j X_i \to X_j X i → X j )表示 X i X_i X i 对 X j X_j X j 有一个直接的影响或依赖,沿用半朴素贝叶斯方法,我们称 X i X_i X i 是 X j X_j X j 的一个父结点,而 X j X_j X j 是 X i X_i X i 的一个子结点。
无环: 这是 DAG 的关键特性。意味着从图中任何一个结点出发,沿着边的方向走,永远不可能回到起点。这保证了属性最终不能依赖自己。
但仅有DAG结构还不够,我们还需要量化结点之间的依赖强度 ,这由参数 完成。我们用 Θ \Theta Θ 来表示整个网络的所有参数 集合。设属性 x i x_{i} x i 的父结点集为 π i \pi_{i} π i ,那么 x i x_i x i 对其父结点的依赖程度由条件概率分布 (CPD) P ( x i ∣ π i ) P(x_i | \pi_{i}) P ( x i ∣ π i ) 来描述,该分布是参数 集合 Θ \Theta Θ 的一部分,记为θ x i ∣ π i \theta_{x_{i}|\pi_{i}} θ x i ∣ π i 。
可以思考一下,如果两个属性 A A A 和 B B B 相互独立,那么条件概率等于边缘概率,即 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P ( A ∣ B ) = P ( A ) ;只有当它们存在依赖关系时,两者才不相等。
整个贝叶斯网络的参数集合 Θ \Theta Θ 就是所有节点 X i X_i X i 的参数 θ x i ∣ π i \theta_{x_i | \pi_{i}} θ x i ∣ π i 的集合:
Θ = { θ x 1 ∣ π 1 , θ x 2 ∣ π 2 , … , θ x d ∣ π d } \Theta = \{ \theta_{x_1 | \pi_{1}}, \theta_{x_2 | \pi_{2}}, \dots, \theta_{x_d | \pi_{d} }\} Θ = { θ x 1 ∣ π 1 , θ x 2 ∣ π 2 , … , θ x d ∣ π d }
特别的,如果所有变量都是离散的 ,那么每个 CPD P ( x i ∣ π i ) P(x_i | \pi_{i}) P ( x i ∣ π i ) 通常用一个条件概率表 (Conditional Probability Table, CPT) 来表示:
CPT 会列出父节点 π i \pi_{i} π i 的每一种可能的取值组合。
对于父节点的每一种组合,CPT 会给出 x i x_i x i 取其每一个可能值的概率。
因此,参数 θ x i ∣ π i \theta_{x_{i}|\pi_{i}} θ x i ∣ π i 就是这个 CPT 表中存储的所有概率值。
我们最终得到了一个贝叶斯网 B = ⟨ G , Θ ⟩ B = \langle G, \Theta \rangle B = ⟨ G , Θ ⟩ ,现在需要计算整个网络的联合概率分布 P ( x ) = P ( x 1 , x 2 , … , x d ) P(\mathbf{x})=P(x_{1},x_{2},\dots,x_{d}) P ( x ) = P ( x 1 , x 2 , … , x d ) 。根据概率的链式法则 (此前也使用过),联合概率分布可以分解为:
P ( x 1 , x 2 , … , x d ) = P ( x 1 ) × P ( x 2 ∣ x 1 ) × P ( x 3 ∣ x 2 , x 1 ) × ⋯ × P ( x d ∣ x 1 , x 2 , … , x d − 1 ) = ∏ i = 1 d P ( x i ∣ x 1 , x 2 , … , x i − 1 ) \begin{align}
P(x_{1},x_{2},\dots,x_{d}) &=P(x_{1})\times P(x_{2}|x_{1}) \times P(x_{3}|x_{2},x_{1})\times \dots \times P(x_{d}|x_{1},x_{2},\dots,x_{d-1}) \\
&=\prod_{i=1}^dP(x_{i}|x_{1},x_{2},\dots,x_{i-1})
\end{align} P ( x 1 , x 2 , … , x d ) = P ( x 1 ) × P ( x 2 ∣ x 1 ) × P ( x 3 ∣ x 2 , x 1 ) × ⋯ × P ( x d ∣ x 1 , x 2 , … , x d − 1 ) = i = 1 ∏ d P ( x i ∣ x 1 , x 2 , … , x i − 1 )
由于贝叶斯网是一个有向无环图(DAG) ,总存在一种拓扑排序 使得对于任意有向边 x j → x i x_j \to x_i x j → x i ,节点 x j x_j x j 在排序中必然位于 x i x_i x i 之前。这意味着父结点始终排在子结点之前 。基于此,我们引入条件独立性假设 :给定节点 x i x_i x i 的父节点集 π i \pi_i π i 时,x i x_i x i 与所有非后代节点条件独立 。
在这一假设下,重新观察联合概率的乘积项 P ( x i ∣ x 1 , x 2 , … , x i − 1 ) P(x_{i}|x_{1},x_{2},\dots,x_{i-1}) P ( x i ∣ x 1 , x 2 , … , x i − 1 ) 。对于节点 x i x_i x i ,集合 { x 1 , x 2 , … , x i − 1 } \{x_{1},x_{2},\dots,x_{i-1}\} { x 1 , x 2 , … , x i − 1 } 中的结点要么是其父结点(π i \pi_i π i ),要么是满足条件独立性的非后代结点。因此,该项可简化为仅依赖于父结点 的条件概率 P ( x i ∣ π i ) P(x_{i}|\pi_{i}) P ( x i ∣ π i ) 。最终,贝叶斯网的联合概率分布可表示为:
P ( x 1 , x 2 , … , x d ) = ∏ i = 1 d P ( x i ∣ π i ) P(x_{1},x_{2},\dots,x_{d})=\prod_{i=1}^{d}P(x_{i}|\pi_{i}) P ( x 1 , x 2 , … , x d ) = i = 1 ∏ d P ( x i ∣ π i )
在概率图模型中,我们经常需要判断变量间的条件独立性关系 。我们希望仅通过观察有向无环图(DAG)的结构,就能判断出:当给定(观测到)一组变量 Z \mathbf{Z} Z 的值时,另外两组变量 X \mathbf{X} X 和 Y \mathbf{Y} Y 是否相互条件独立。我们用 X ⊥ Y ∣ Z \mathbf{X} \perp \mathbf{Y} | \mathbf{Z} X ⊥ Y ∣ Z 表示这个条件独立关系。
DAG中任意三个相连的结点x 1 , x 2 , x 3 x_{1},x_{2},x_{3} x 1 , x 2 , x 3 存在以下三种经典结构,它们的独立性表现各不相同:
同父结构
graph TD
x1 --> x2
x1 --> x3
在这个结构中,x 1 x_{1} x 1 是x 2 x_{2} x 2 和x 3 x_{3} x 3 的共同父结点 。
独立性 :如果x 1 x_{1} x 1 已知(即被观测),那么x 2 x_{2} x 2 和x 3 x_{3} x 3 将直接由x 1 x_{1} x 1 决定,此时它们之间是条件独立的;但如果x 1 x_{1} x 1 未知,x 2 x_{2} x 2 就可以通过影响x 1 x_{1} x 1 来间接影响x 3 x_{3} x 3 (基于贝叶斯网络的性质),因此两者是相关的。
V型结构(或称冲撞结构)
graph TD
x2 --> x1
x3 --> x1
这个结构中,x 2 x_{2} x 2 和x 3 x_{3} x 3 都是x 1 x_{1} x 1 的父结点。
独立性 :如果x 1 x_{1} x 1 未被观测,x 2 x_{2} x 2 和x 3 x_{3} x 3 之间没有直接连接路径,此时两者是独立的;但如果观测到x 1 x_{1} x 1 ,根据贝叶斯公式,x 2 x_{2} x 2 和x 3 x_{3} x 3 会变得相关。
顺序结构
graph LR
x2 --> x1
x1 --> x3
这是最直观的结构。
独立性 :如果x 1 x_{1} x 1 被观测,那么x 3 x_{3} x 3 的状态可以完全从x 1 x_{1} x 1 推断出来,此时x 2 x_{2} x 2 和x 3 x_{3} x 3 是条件独立的;但如果x 1 x_{1} x 1 未被观测,x 2 x_{2} x 2 可以通过x 1 x_{1} x 1 影响x 3 x_{3} x 3 ,两者就存在依赖关系。
为了系统性地分析有向图中变量间的条件独立性,可以使用有向分离 方法。具体操作分为两个步骤:首先需要将原始有向图转换为对应的无向图(称为"道德图"),转换过程包括:
找到图中所有的V型结构,并在两个父结点之间添加无向边(这个过程称为"道德化")
将所有剩余的有向边改为无向边
通过这种转换得到的道德图,可以方便地判断独立性:只需要将已知变量集合Z \mathbf{Z} Z 对应的结点及其边从图中移除,然后检查目标变量x x x 和y y y 是否位于不同的连通分支。如果是,就称x x x 和y y y 被Z \mathbf{Z} Z 有向分离 ,此时条件独立关系x ⊥ y ∣ z x \perp y|\mathbf{z} x ⊥ y ∣ z 成立。
7.4.1 学习
现在我们来看贝叶斯网是如何从数据中学习得到的。当我们有一个训练数据集时,我们并不知道变量之间确切的依赖关系 (也就是图的结构),这时候就需要通过算法自动地从数据中发现或学习出这个图结构 ,这个过程就叫做贝叶斯网络结构学习 。
在结构学习中,最常用的方法是"评分搜索 "方法。这个方法的核心思想是:首先定义一个评分函数 s ( B ∣ D ) s(B|D) s ( B ∣ D ) ,这个函数的作用是衡量给定的贝叶斯网B B B 对数据集D D D 的拟合好坏程度 。然后,我们需要在所有可能的DAG结构空间中进行搜索,目标是找到一个使得这个评分函数最优的结构G ∗ G^* G ∗ 。
根据不同的归纳偏好,我们可以选择不同形式的评分函数。这里我们选用最小描述长度MDL 准则。MDL的基本思想很直观:把学习任务看作数据压缩任务 ,我们要找到一个编码长度最小的模型。具体来说,MDL评分函数的数学表达式是:
s ( B ∣ D ) = f ( θ ) ∣ B ∣ − L L ( B ∣ D ) s(B|D) = f(\theta)|B| - LL(B|D) s ( B ∣ D ) = f ( θ ) ∣ B ∣ − LL ( B ∣ D )
这个公式中各个部分的含义需要详细解释:
∣ B ∣ |B| ∣ B ∣ 表示贝叶斯网的参数个数 ,也就是这个模型的复杂度
f ( θ ) f(\theta) f ( θ ) 表示描述每个参数所需要的字节数 ,这个取决于我们选择的编码方案
L L ( B ∣ D ) = ∑ i = 1 m log P ( x i ) LL(B|D)=\sum_{i=1}^{m}\log P(\mathbf{x}_{i}) LL ( B ∣ D ) = ∑ i = 1 m log P ( x i ) 是贝叶斯网络的对数似然函数 ,表示模型对数据的拟合程度
这个公式可以这样理解:第一项f ( θ ) ∣ B ∣ f(\theta)|B| f ( θ ) ∣ B ∣ 计算的是描述贝叶斯网B B B 本身需要的字节数 ,而第二项L L ( B ∣ D ) LL(B|D) LL ( B ∣ D ) 计算的是用这个概率分布来描述数据集D D D 需要的字节数 。我们的目标就是要找到一个合适的B B B ,使得s ( B ∣ D ) s(B|D) s ( B ∣ D ) 最小。
关于f ( θ ) f(\theta) f ( θ ) 的选择,有两个常见的情况:
当f ( θ ) = 1 f(\theta)=1 f ( θ ) = 1 时,我们认为每个参数用1字节描述,这时候得到的就是AIC评分函数
当f ( θ ) = 1 2 log m f(\theta)=\frac{1}{2}\log m f ( θ ) = 2 1 log m 时(其中m m m 是样本量),我们得到的就是BIC评分函数
对于公式中的第一项f ( θ ) ∣ B ∣ f(\theta)|B| f ( θ ) ∣ B ∣ ,需要注意:一旦图的结构G G G 确定了 ,那么各个节点之间的父子关系就固定下来了,相应的参数个数也就确定了。所以这一项只依赖于图结构G G G 的选择 。而第二项的对数似然L L ( B ∣ D ) LL(B|D) LL ( B ∣ D ) 可以分解为θ x i ∣ π i \theta_{x_{i}|\pi_{i}} θ x i ∣ π i 的对数求和,其估计直接从数据集D D D 中的统计频率计算得到。因此,整个结构学习问题就转化为在DAG空间中寻找最优的图结构G G G 的问题 。
遗憾的是,在DAG空间中找最优是一个NP问题,常用启发式的算法完成:
总之,经过这样的学习,我们就得到了一个贝叶斯网络 B = ( G , Θ ) B=(G, \Theta) B = ( G , Θ ) 。这个网络表示了一个关于变量 X \mathbf{X} X 的联合概率分布 P ( x ) P(\mathbf{x}) P ( x ) ,这就是我们要的。
7.4.2 推断
在学习好一个完整的贝叶斯网络后,我们需要用它对新观测到的数据进行概率推断。这里需要明确几个关键概念 :新数据对应的变量称为证据变量 (用集合E E E 表示),其具体观测值记为e e e ;我们感兴趣的待推测变量称为查询变量 (用集合Q Q Q 表示),其可能取值记为q q q 。通过计算后验概率分布 :
P ( Q = q ∣ E = e ) = P ( Q = q , E = e ) P ( E = e ) P(Q=q|E=e)=\frac{P(Q=q,E=e)}{P(E=e)} P ( Q = q ∣ E = e ) = P ( E = e ) P ( Q = q , E = e )
我们可以得到查询变量在不同取值下的概率分布,这个过程就是概率推断——后续可以基于该分布进行决策(例如选择概率最大的类别作为分类结果)。
分子部分P ( Q = q , E = e ) P(Q=q,E=e) P ( Q = q , E = e ) 可以通过链式法则和条件概率表(CPT)直接计算:
P ( Q = q , E = e ) = ∏ x i P ( x i ∣ π i ) P(Q=q,E=e)=\prod_{x_{i}}P(x_{i}|\pi_{i}) P ( Q = q , E = e ) = x i ∏ P ( x i ∣ π i )
其中π i \pi_i π i 表示x i x_i x i 的父节点集合。而分母P ( E = e ) P(E=e) P ( E = e ) 则需要通过全概率公式计算:
P ( E = e ) = ∑ q ′ P ( Q = q ′ , E = e ) P(\mathbf{E}=\mathbf{e}) = \sum_{\mathbf{q}'} P(\mathbf{Q}=\mathbf{q}', \mathbf{E}=\mathbf{e}) P ( E = e ) = q ′ ∑ P ( Q = q ′ , E = e )
虽然分母的计算形式与分子类似,但实际计算复杂度是NP-hard的(因为需要穷举所有可能的q ′ \mathbf{q}' q ′ 组合)。因此在实际应用中,我们常采用近似推断 方法,其中吉布斯采样 是最常用的技术之一。
吉布斯采样的理论基础是马尔科夫链:在一定条件下,无论初始状态如何,当采样次数趋于无穷时,马尔科夫链一定会收敛到平稳分布。对于贝叶斯网络推断,吉布斯采样的平稳分布恰好就是我们需要的后验分布P ( Q = q ∣ E = e ) P(Q=q|E=e) P ( Q = q ∣ E = e ) 。
书上说吉布斯采样与马尔科夫链的详细理论会在后续章节说明,此处暂时接受这个结论
具体实施步骤 :
固定证据变量 :始终保持E = e E=e E = e 不变。首先初始化所有非证据变量q 0 \mathbf{q}^{0} q 0 (可随机初始化或根据启发式规则赋值)。
迭代采样 :假设当前状态为q t = { q 1 t , . . . , q ∣ Q ∣ t } \mathbf{q}^{t}=\{q^{t}_{1},...,q^{t}_{|Q|}\} q t = { q 1 t , ... , q ∣ Q ∣ t } ,要生成下一个状态q t + 1 \mathbf{q}^{t+1} q t + 1 ,需要按顺序遍历每个查询变量Q j ∈ Q Q_j \in Q Q j ∈ Q 。
单变量采样 :对于每个Q j Q_j Q j ,根据其条件概率分布 采样新值q j t + 1 q^{t+1}_{j} q j t + 1 。这个分布依赖于:Q 1 , . . . , Q j − 1 Q_1,...,Q_{j-1} Q 1 , ... , Q j − 1 的最新值(即q 1 t + 1 , . . . , q j − 1 t + 1 q^{t+1}_{1},...,q^{t+1}_{j-1} q 1 t + 1 , ... , q j − 1 t + 1 )和Q j + 1 , . . . , Q ∣ Q ∣ Q_{j+1},...,Q_{|Q|} Q j + 1 , ... , Q ∣ Q ∣ 的旧值(即q j + 1 t , . . . , q ∣ Q ∣ t q^{t}_{j+1},...,q^{t}_{|Q|} q j + 1 t , ... , q ∣ Q ∣ t ),以及固定证据E = e E=e E = e 。数学表示为:
q j t + 1 ∼ P ( Q j ∣ Q 1 = q 1 t + 1 , . . . , Q j − 1 = q j − 1 t + 1 , Q j + 1 = q j + 1 t , . . . , Q ∣ Q ∣ = q ∣ Q ∣ t , E = e ) q^{t+1}_{j} \sim P(Q_{j}|Q_{1}=q^{t+1}_{1},...,Q_{j-1}=q^{t+1}_{j-1},Q_{j+1}=q^{t}_{j+1},...,Q_{|Q|}=q^{t}_{|Q|},E=e) q j t + 1 ∼ P ( Q j ∣ Q 1 = q 1 t + 1 , ... , Q j − 1 = q j − 1 t + 1 , Q j + 1 = q j + 1 t , ... , Q ∣ Q ∣ = q ∣ Q ∣ t , E = e )
状态更新 :完成所有变量的遍历后,即完成从q t \mathbf{q}^{t} q t 到q t + 1 \mathbf{q}^{t+1} q t + 1 的转移。
计算优化 :实际计算时,Q j Q_j Q j 的条件概率分布仅依赖于其马尔可夫毯 M B ( Q j ) MB(Q_j) MB ( Q j ) (包含父节点、子节点及其它父节点),这使得采样过程可以局部高效完成。
马尔可夫毯相关内容也放在后续里
结果估计 :经过T T T 次采样后,若与q \mathbf{q} q 相同的样本出现n q n_q n q 次,则后验概率可估计为:
P ^ ( Q = q ∣ E = e ) = n q T \hat{P}(Q=q|E=e)=\frac{n_{q}}{T} P ^ ( Q = q ∣ E = e ) = T n q
注意事项 :
马尔科夫链的收敛速度通常较慢,需要足够多的采样次数。
当网络中存在极端概率(如0或1)时,可能破坏马尔科夫链的遍历性,导致平稳分布不存在。
7.5 EM算法
在之前的学习讨论中,我们隐含地假设 训练数据集包含了贝叶斯网络中所有随机变量的观测值 ,这种情况称为完整数据 。在这种理想情况 下,模型的对数似然函数 L L ( Θ ∣ D ) LL(\Theta|D) LL ( Θ∣ D ) 可以方便地分解为网络中各个变量的条件概率分布 的对数之和。此时,我们可以直接使用最大似然估计 方法,通过计算训练数据中的统计频次 来直接估计每个 CPT 中的概率参数 Θ \Theta Θ 。
然而在实际应用中,我们经常会遇到训练数据中某些变量的取值是未知或无法直接观测 的情况。这些未被观测到的变量被称为隐变量 ,我们通常用集合 Z Z Z 来表示,而将可以观测到的变量用集合 X X X 表示。隐变量的存在给贝叶斯网络的学习过程带来了挑战,尤其是在进行模型参数 Θ \Theta Θ 的估计时。
当训练数据包含隐变量 Z Z Z 时,我们无法直接利用 包含隐变量的完整数据对数似然 L L ( Θ ∣ X , Z ) = ln P ( X , Z ∣ Θ ) LL(\Theta|X,Z) = \ln P(X,Z|\Theta) LL ( Θ∣ X , Z ) = ln P ( X , Z ∣Θ ) 进行计算和最大化,因为 Z Z Z 的值是未知的。此时,我们的目标转变为最大化仅基于已观测数据 X X X 的对数似然,这被称为对数边际似然(log marginal likelihood) :
L L ( Θ ∣ X ) = ln P ( X ∣ Θ ) LL(\Theta|X)=\ln P(X|\Theta) LL ( Θ∣ X ) = ln P ( X ∣Θ )
这里的 P ( X ∣ Θ ) P(X|\Theta) P ( X ∣Θ ) 被称为边际概率分布 ,因为它是在联合概率分布 P ( X , Z ∣ Θ ) P(X,Z|\Theta) P ( X , Z ∣Θ ) 的基础上,通过对隐变量 Z Z Z 的所有可能取值进行求和得到的
L L ( Θ ∣ X ) = ln ∑ Z P ( X , Z ∣ Θ ) LL(\Theta|X)=\ln \sum_{Z}P(X,Z|\Theta) LL ( Θ∣ X ) = ln ∑ Z P ( X , Z ∣Θ )
由于对数函数内包含求和运算 ,这个对数边际似然函数通常是非凸且难以直接求解 。因此,我们需要采用专门的迭代优化算法 ,例如期望最大化(EM)算法 ,来间接地最大化这个对数边际似然,从而估计模型参数 Θ \Theta Θ 。在这些算法的迭代过程中,会利用到对隐变量 Z Z Z 在当前模型参数下的期望 。
EM 算法是处理含有隐变量 或缺失数据 的参数学习问题的标准且强大的工具 。它是一种迭代算法 ,通过交替执行两个核心步骤来逐步逼近观测数据似然函数的最大值:
E-步 (Expectation Step) :
目标 : 在当前参数 Θ ( t ) \Theta^{(t)} Θ ( t ) (可以推断隐变量分布P ( Z ∣ X , Θ ( t ) ) P(Z|X,\Theta^{(t)}) P ( Z ∣ X , Θ ( t ) ) )和观测数据 X X X 下,计算完整数据 (包含观测数据 X X X 和隐变量 Z Z Z )的对数似然函数 log P ( X , Z ∣ Θ ) \log P(X, Z | \Theta) log P ( X , Z ∣Θ ) 的期望值 ,这个期望值记为 Q ( Θ ∣ Θ ( t ) ) Q(\Theta | \Theta^{(t)}) Q ( Θ∣ Θ ( t ) ) 。
Q ( Θ ∣ Θ ( t ) ) = E Z ∣ X , Θ ( t ) [ log P ( X , Z ∣ Θ ) ] Q(\Theta | \Theta^{(t)}) = E_{Z | X, \Theta^{(t)}} [\log P(X, Z | \Theta)] Q ( Θ∣ Θ ( t ) ) = E Z ∣ X , Θ ( t ) [ log P ( X , Z ∣Θ )]
原理 : 这个期望是基于隐变量的后验概率 P ( Z ∣ X , Θ ( t ) ) P(Z | X, \Theta^{(t)}) P ( Z ∣ X , Θ ( t ) ) 计算的,本质上是用概率来填充隐变量。对于贝叶斯网络 来说,完整数据对数似然 log P ( X , Z ∣ Θ ) \log P(X, Z | \Theta) log P ( X , Z ∣Θ ) 仍然可以分解为基于网络结构中各个变量条件概率的乘积的对数形式。
M-步 (Maximization Step) :
目标 : 寻找一组新的参数 Θ ( t + 1 ) \Theta^{(t+1)} Θ ( t + 1 ) ,使得在 E-步中计算得到的期望函数 Q ( Θ ∣ Θ ( t ) ) Q(\Theta | \Theta^{(t)}) Q ( Θ∣ Θ ( t ) ) 达到最大值 。
Θ ( t + 1 ) = arg max Θ Q ( Θ ∣ Θ ( t ) ) \Theta^{(t+1)} = \arg\max_{\Theta} Q(\Theta | \Theta^{(t)}) Θ ( t + 1 ) = arg max Θ Q ( Θ∣ Θ ( t ) )
原理 : 对于贝叶斯网络 ,这等价于使用 E-步计算得到的期望统计量 (比如期望计数)来直接更新网络参数(例如条件概率表中的条目 θ ^ i j k ( t + 1 ) \hat{\theta}_{ijk}^{(t+1)} θ ^ ijk ( t + 1 ) )。
迭代过程 : 算法会反复交替执行 E-步和 M-步,直到满足收敛条件 为止。
本文由博客一文多发平台 OpenWrite 发布!