一、贝叶斯决策论
1.贝叶斯判定准则:
假设有N种可能的类别标记,y={c1,c2,…,cn},x 为样本。基于后验概率将样本x分到第i类的条件风险为:
为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即
-
h*(x)被称为贝叶斯最优分类器,与之对应的总体风险被称为贝叶斯风险。
-
反映了通过机器学习所能产生的模型精度的理论上限。
2.两种基本策略
3.判别式模型
思路:直接建模P ( c ∣ x )
代表:决策树、BP神经网络、SVM
4.生成式模型
思路:先建模联合概率分别P ( x , c ) ,再计算P ( c ∣ x )
代表:贝叶斯分类器
5.贝叶斯定理
公式:
其中,P ( c ∣ x ) 为后验概率,即看到“结果”后修正的概率。
P ( x ∣ c ) 类标记c相对于样本X的“类条件概率”,或称为“似然”。
P ( c )为先验概率,样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律)。
P ( X )为“证据”因子,与类标记无关。
二、极大似然估计
估计概率的常用策略:先假定其具有某种确定的概率分布形式,再基于训练样本对参数估计。
使用对数似然:
三、朴素贝叶斯分类器
1.估计后验概率的主要困难
所有属性上的联合概率分布难以从有限训练样本估计获得
2.基本思路
属性条件独立性假设
由于对所有类别来说P ( x )相同,于是
3.拉普拉斯修正
本质:给频率表中的每个计数加上一个较小的数,保证每一类中每个特征发生概率非零。
四、半朴素贝叶斯分类器
1.为什么需要半朴素贝叶斯分类器
后验概率P(c∣x)𝑃(𝑐∣𝑥)计算起来比较困难。 属性条件独立性假设在现实任务中往往很难成立。
2.基本思想
适当考虑一部分属性之间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略比较强的属性依赖关系。
3.常用策略——独依赖估计
方法:假设每个属性在类别之外最多仅依赖于一个其他属性
其中 pai 为属性 xi所依赖的属性,称为xi 的父属性。此时,对每个属性 xi,若其夫属性 pai 已知,则可以采用类似
的办法来估计概率值𝑃(𝑥𝑖∣𝑐,𝑝𝑎𝑖)
于是问题就转换为如何确定每个属性的父属性,不同的做法将产生不同的独依赖分类器。
4.不同的独依赖分类器
NB
SPODE
TAN
AODE
五、贝叶斯网
1.定义
贝叶斯网络,又称信念网络,或有向无环图模型,是一种系统地描述随机变量之间关系的语言。
DAG中节点表示随机变量,边表示变量之间的依赖关系。
条件概率表中的每一个元素对应DAG中唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。
2.目的
旨在解决不确定性推理问题
3.贝叶斯网络推理过程的实现方法
-
采样推理——随机抽样
-
变量消除推理
-
精准推理——小规模的贝叶斯网络(枚举法或动态规划)
-
近似推理——大规模的贝叶斯网络(变分推断或马尔可夫链蒙特卡洛法)
4.贝叶斯网络学习
参数学习定义:在已知贝叶斯网络结构的情况下,从数据中学习网络中节点的条件概率分布参数的过程。
实现方式:最大似然估计、贝叶斯估计等方法来实现。
结构学习定义:从数据中学习贝叶斯网络的结构的过程。
目标:发现最优的网络结构,使得网络能够最好地表示数据之间的依赖关系。
实现方法:搜索算法(如贪婪搜索、爬山算法)、约束优化方法(如评分函数、信息准则)。
六、EM算法
1.定义
从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。
2.步骤
①期望(E)步,利用当 前估计的参数值来计算对数似然的期望值;
②最大化(M)步,寻找能使 EM 算法的收敛性分析 E步产生的似然期望最大化的参数值.
③新得到的参数值重新被用于E步,直至收敛到局部最优解.