机器学习-贝叶斯分类器

187 阅读4分钟

一、贝叶斯决策论

1.贝叶斯判定准则:

假设有N种可能的类别标记,y={c1,c2,…,cn},x 为样本。基于后验概率将样本x分到第i类的条件风险为:

image.png

为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即

image.png

  • h*(x)被称为贝叶斯最优分类器,与之对应的总体风险被称为贝叶斯风险。

  • 反映了通过机器学习所能产生的模型精度的理论上限。

2.两种基本策略
3.判别式模型

思路:直接建模P ( c ∣ x )

代表:决策树、BP神经网络、SVM

4.生成式模型

思路:先建模联合概率分别P ( x , c ) ,再计算P ( c ∣ x )

image.png

代表:贝叶斯分类器

5.贝叶斯定理

公式:

image.png 其中,P ( c ∣ x ) 为后验概率,即看到“结果”后修正的概率。

P ( x ∣ c ) 类标记c相对于样本X的“类条件概率”,或称为“似然”。

P ( c )为先验概率,样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律)。

P ( X )为“证据”因子,与类标记无关。

二、极大似然估计

估计概率的常用策略:先假定其具有某种确定的概率分布形式,再基于训练样本对参数估计。

image.png

使用对数似然:

image.png

三、朴素贝叶斯分类器

1.估计后验概率的主要困难

所有属性上的联合概率分布难以从有限训练样本估计获得

2.基本思路

属性条件独立性假设

P(cx)=P(x,c)P(x)=P©P(x)i=1dP(xic)P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P©}{P(x)}\prod_{i=1}^{d}P(x_i|c)

由于对所有类别来说P ( x )相同,于是

image.png

3.拉普拉斯修正

本质:给频率表中的每个计数加上一个较小的数,保证每一类中每个特征发生概率非零。

四、半朴素贝叶斯分类器

1.为什么需要半朴素贝叶斯分类器

后验概率P(c∣x)𝑃(𝑐∣𝑥)计算起来比较困难。 属性条件独立性假设在现实任务中往往很难成立。

2.基本思想

适当考虑一部分属性之间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略比较强的属性依赖关系。

3.常用策略——独依赖估计

方法:假设每个属性在类别之外最多仅依赖于一个其他属性

image.png

其中 pai 为属性 xi所依赖的属性,称为xi 的父属性。此时,对每个属性 xi,若其夫属性 pai 已知,则可以采用类似

image.png 的办法来估计概率值𝑃(𝑥𝑖∣𝑐,𝑝𝑎𝑖) 于是问题就转换为如何确定每个属性的父属性,不同的做法将产生不同的独依赖分类器。

4.不同的独依赖分类器

NB

SPODE

TAN

AODE

五、贝叶斯网

1.定义

贝叶斯网络,又称信念网络,或有向无环图模型,是一种系统地描述随机变量之间关系的语言。

DAG中节点表示随机变量,边表示变量之间的依赖关系。

条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。

2.目的

旨在解决不确定性推理问题

3.贝叶斯网络推理过程的实现方法
  • 采样推理——随机抽样

  • 变量消除推理

  • 精准推理——小规模的贝叶斯网络(枚举法或动态规划)

  • 近似推理——大规模的贝叶斯网络(变分推断或马尔可夫链蒙特卡洛法)

4.贝叶斯网络学习

参数学习定义:在已知贝叶斯网络结构的情况下,从数据中学习网络中节点的条件概率分布参数的过程。

实现方式:最大似然估计、贝叶斯估计等方法来实现。

结构学习定义:从数据中学习贝叶斯网络的结构的过程。

目标:发现最优的网络结构,使得网络能够最好地表示数据之间的依赖关系。

实现方法:搜索算法(如贪婪搜索、爬山算法)、约束优化方法(如评分函数、信息准则)。

六、EM算法

1.定义

从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。

2.步骤

①期望(E)步,利用当 前估计的参数值来计算对数似然的期望值;

②最大化(M)步,寻找能使 EM 算法的收敛性分析 E步产生的似然期望最大化的参数值.

③新得到的参数值重新被用于E步,直至收敛到局部最优解.