[机器学习读书笔记] - 基于朴素贝叶斯的舆情分类器

604 阅读1分钟

1. 公式

朴素贝叶斯的公式如下:

2. 应用

基于朴素贝叶斯的舆情分类模型:

假设我们有2条pos(正向)语料,2条neg(负向)语料,下面我们基于这些语料计算 pos, neg 的概率以及在这些类别下各个单词出现的概率。

如下所示计算 pos, neg:

如下所示计算在 pos, neg 类别下单词出现的概率:

根据公式判断最终类别:

平滑处理:如图所示单词 because 在 neg 类别下的概率为0, 为了避免 zero division error, 我们需要做拉普拉斯平滑处理,即假设每个单词在每个类别下都至少出现了1次。

经过平滑处理后,最终每个单词在各个类别下出现的概率如下图所示:

同时为了避免 floating-point underflow, 我们可以做 log 将乘法运算转换为加法,如图所示:

此时,最终的结果需要与0进行比较: