这可能是你见过的关于朴素贝叶斯推导的文章里讲得最细的。
1 - 基础定理与定义
-
条件概率公式:
-
全概率公式:
- 贝叶斯公式:
-
概率加和规则:
-
概率乘积规则:
-
生成学习方法:
利用训练数据学习
和
的估计,得到联合概率分布:
然后求得后验概率分布
。具体概率估计方法可以是极大似然估计或者贝叶斯估计。
2 - 模型简述
朴素贝叶斯(
)是基于贝叶斯定理与特征条件独立假设的分类方法。
对于给定的训练数据集,首先基于条件独立假设,学习输入输出的联合概率分布;然后基于此模型,对给定的输入,利用贝叶斯定理,求出后验概率最大的输出类
。
后验概率最大等价于损失函数时的期望风险最小化。
作为典型的生成学习方法,朴素贝叶斯实现简单,学习和预测效率都很高,是一种常用模型。
以下主要介绍经典的多项式贝叶斯分类器。
3 - 模型假设
-
训练集
独立同分布产生
-
条件独立性假设。用于分类的特征,在类确定的条件下独立,即:
这是一个较强的假设。在对性能作出一些妥协的条件下,此假设使模型包含条件概率的数量大为减少,使模型的学习与预测大为简化,从而高效而易于实现。
条件独立性假设也可视为最简单的有向概率图模型。
4 - 模型主要策略
- 极大似然估计
- 最大化后验概率
5 - 模型输入
训练集,
,
,
,
;
,
是第
个样本的第
个特征,
,
,其中
是第
个特征的第
个取值,
.
另有实例.
6 - 模型推导
由假设可得
取后两个等式,处理变换得:
以上第二个等号使用了概率加和法则,第三个等号使用了条件概率公式,后两个等号使用了条件独立性假设。
朴素贝叶斯可用直接用分子表示为:
注意到在以上公式中,分母的值对所有的都相等,因此可舍去分母,得到:
7 - 参数估计
- 极大似然估计
-
先验概率:
-
条件概率:
其中函数为指示函数。
- 贝叶斯估计
如果某个属性值在训练集中没有与某个类同时出现过,则使用公式进行概率估计则会出现
,并导致连乘氏计算的概率值也为
。为防以上情况出现,引入贝叶斯估计如下。
-
先验概率:
式中
.
-
条件概率:
当时,即等价为极大似然估计。
常用,称为拉普拉斯平滑。
考虑先验概率公式,对于任何,都有
可见确实是一种分布。条件概率公式同理。拉普拉斯平滑的实质是假设属性值与类别是均匀分布,这是额外引入的关于数据先验。它修正了训练集样本不充分而导致概率值为的问题,且在训练集变大时,修正引入的先验影响也会逐渐变得可以忽略。
8 - 算法流程(极大似然估计)
输入:见5. 另有实例.
输出:实例的分类.
- 计算先验概率与条件概率:
-
先验概率(共计
个式子):
-
条件概率(共计
个式子):
-
对于给定实例
,计算:
-
确定实例
的分类:
9 - 高斯贝叶斯分类器
以上是基础的多项式贝叶斯分类器,用于自变量均为离散值的情况。
如果数据集中的自变量均为连续的数值型数据,则选择本章的高斯贝叶斯分类器。
假设自变量特征服从高斯分布,即:
其中和
为训练集中特征
属于类别
的均值和标准差,则条件概率可以表示为:
其他步骤与思想不变,参考多项式贝叶斯分类器即可。
10 - 伯努利贝叶斯分类器
在某些任务,如文本挖掘中,特征均为
二元值,此时优选伯努利贝叶斯分类器。
假设特征的条件概率为满足伯努利分布。
设特征,则记:
因此可将条件概率写为:
其他步骤与思想不变,参考多项式贝叶斯分类器即可。
11 - 番外:为何没有出现损失函数?
以下证明期望风险最小化等价于后验概率最大化。
设选择损失函数:
式中为分类决策函数。此时期望风险为:
期望是对联合分布取的,因此再取条件期望:
为使期望风险最小化,需要对逐个极小化,即:
注意从第一行到第二个行,对于损失函数,如果
,则损失函数
,后一项也同时失效,只有当
时,损失函数
,后一项才有效,因此后一项也可以写成第二行的形式以简化算式。从第二行到第三行也容易理解。从第三行到第四行可以注意到
变成了
,已经从损失函数最大小化转化为后验概率最大化。
可知期望风险最小化等价于朴素贝叶斯采用的后验概率最大化: