机器学习-贝叶斯分类器一、贝叶斯决策论 1.贝叶斯判定准则：假设有N种可能的类别标记，y={c1,c2,…,cn},x

一、贝叶斯决策论

1.贝叶斯判定准则：

假设有N种可能的类别标记，y={c1,c2,…,cn},x 为样本。基于后验概率将样本x分到第i类的条件风险为：

为最小化总体风险，只需在每个样本上选择那个能使条件风险R（c|x)最小的类别标记，即

h*(x)被称为贝叶斯最优分类器，与之对应的总体风险被称为贝叶斯风险。
反映了通过机器学习所能产生的模型精度的理论上限。

2.两种基本策略

3.判别式模型

思路：直接建模P ( c ∣ x )

代表：决策树、BP神经网络、SVM

4.生成式模型

思路：先建模联合概率分别P ( x , c ) ，再计算P ( c ∣ x )

代表：贝叶斯分类器

5.贝叶斯定理

公式：

其中，P ( c ∣ x ) 为后验概率，即看到“结果”后修正的概率。

P ( x ∣ c ) 类标记c相对于样本X的“类条件概率”，或称为“似然”。

P ( c )为先验概率，样本空间中各类样本所占的比例，可通过各类样本出现的频率估计（大数定律）。

P ( X )为“证据”因子，与类标记无关。

二、极大似然估计

估计概率的常用策略：先假定其具有某种确定的概率分布形式，再基于训练样本对参数估计。

使用对数似然：

三、朴素贝叶斯分类器

1.估计后验概率的主要困难

所有属性上的联合概率分布难以从有限训练样本估计获得

2.基本思路

属性条件独立性假设

$P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P©}{P(x)}\prod_{i=1}^{d}P(x_i|c)$

由于对所有类别来说P ( x )相同，于是

3.拉普拉斯修正

本质：给频率表中的每个计数加上一个较小的数，保证每一类中每个特征发生概率非零。

四、半朴素贝叶斯分类器

1.为什么需要半朴素贝叶斯分类器

后验概率P(c∣x)𝑃(𝑐∣𝑥)计算起来比较困难。属性条件独立性假设在现实任务中往往很难成立。

2.基本思想

适当考虑一部分属性之间的相互依赖信息，从而既不需要进行联合概率计算，又不至于彻底忽略比较强的属性依赖关系。

3.常用策略——独依赖估计

方法：假设每个属性在类别之外最多仅依赖于一个其他属性

其中 pai 为属性 xi所依赖的属性，称为xi 的父属性。此时，对每个属性 xi,若其夫属性 pai 已知，则可以采用类似

的办法来估计概率值𝑃(𝑥𝑖∣𝑐,𝑝𝑎𝑖) 于是问题就转换为如何确定每个属性的父属性，不同的做法将产生不同的独依赖分类器。

4.不同的独依赖分类器

SPODE

TAN

AODE

五、贝叶斯网

1.定义

贝叶斯网络，又称信念网络，或有向无环图模型，是一种系统地描述随机变量之间关系的语言。

DAG中节点表示随机变量，边表示变量之间的依赖关系。

条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率。

2.目的

旨在解决不确定性推理问题

3.贝叶斯网络推理过程的实现方法

采样推理——随机抽样
变量消除推理
精准推理——小规模的贝叶斯网络（枚举法或动态规划）
近似推理——大规模的贝叶斯网络（变分推断或马尔可夫链蒙特卡洛法）

4.贝叶斯网络学习

参数学习定义：在已知贝叶斯网络结构的情况下，从数据中学习网络中节点的条件概率分布参数的过程。

实现方式：最大似然估计、贝叶斯估计等方法来实现。

结构学习定义：从数据中学习贝叶斯网络的结构的过程。

目标：发现最优的网络结构，使得网络能够最好地表示数据之间的依赖关系。

实现方法：搜索算法（如贪婪搜索、爬山算法）、约束优化方法（如评分函数、信息准则）。

六、EM算法

1.定义

从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。

2.步骤

①期望(E)步，利用当前估计的参数值来计算对数似然的期望值;

②最大化(M)步，寻找能使 EM 算法的收敛性分析 E步产生的似然期望最大化的参数值.

③新得到的参数值重新被用于E步，直至收敛到局部最优解.