多项式事件模型

54 阅读3分钟

以下是您指定章节的详细课程笔记,包含完整的公式推导过程:

朴素贝叶斯变体:多项式事件模型

不同于仅考虑词汇是否出现的多元伯努利事件模型多项式事件模型将词汇频率纳入考量。该模型中,特征 xix_i 表示邮件中的第 ii 个词汇,其值为词汇表(大小为 dd)中的索引序号。

模型参数定义如下:

  • ϕky=1\phi_{k|y=1}:当邮件为垃圾邮件(y=1y=1)时,词汇表第 kk 个词汇出现的概率
  • ϕky=0\phi_{k|y=0}:当邮件为非垃圾邮件(y=0y=0)时,词汇表第 kk 个词汇出现的概率
  • ϕy\phi_y:邮件属于垃圾邮件的先验概率

参数的最大似然估计(MLE)推导如下:

ϕky=1=i=1mj=1ni1{xj(i)=ky(i)=1}i=1m1{y(i)=1}ni\phi_{k|y=1} = \frac{\sum_{i=1}^{m} \sum_{j=1}^{n_i} 1\{x_j^{(i)} = k \land y^{(i)} = 1\}}{\sum_{i=1}^{m} 1\{y^{(i)} = 1\}n_i}

此公式计算所有垃圾邮件中第 kk 个词汇的出现总次数,并除以所有垃圾邮件的词汇总量。非垃圾邮件的参数 ϕky=0\phi_{k|y=0} 计算原理相同。


模型对比:多元伯努利 vs 多项式事件模型

两种模型的本质差异在于文本表示方式与信息利用维度:

特征多元伯努利事件模型多项式事件模型
数据表示二元向量(标记词汇是否出现)词汇索引序列(保留词频信息)
信息利用仅考虑词汇是否在邮件中出现统计每个词汇的出现频次
性能表现总体表现良好,但对短文本效果较弱通常在文本分类任务中优于伯努利模型

值得注意的是,当不确定模型选择时,可通过交叉验证集用朴素贝叶斯同时测试两种模型性能——这是机器学习实践中的常用策略。


多项式事件模型的拉普拉斯平滑

与伯努利模型类似,多项式模型同样面临零概率问题。采用拉普拉斯平滑后的 ϕky=1\phi_{k|y=1} 计算公式为:

ϕky=1=(i=1mj=1ni1{xj(i)=ky(i)=1})+1(i=1m1{y(i)=1}ni)+d\phi_{k|y=1} = \frac{\left( \sum_{i=1}^{m} \sum_{j=1}^{n_i} 1\{x_j^{(i)} = k \land y^{(i)} = 1\} \right) + 1}{\left( \sum_{i=1}^{m} 1\{y^{(i)} = 1\}n_i \right) + d}

该方法为每个词汇的计数增加1(分子),同时将词汇表大小 dd 加入分母。即使某词汇在特定类别的训练集中从未出现,仍会获得微小非零概率。


机器学习算法实践建议

解决机器学习问题时,建议首先采用简单高效的算法建立基准结果。朴素贝叶斯因其实现简易、计算高效的特点成为理想选择。这种方法能以最小时间成本快速验证机器学习方案在特定问题上的可行性。


朴素贝叶斯与高斯判别分析(GDA)的优势

朴素贝叶斯与高斯判别分析具有两大核心优势:

  1. 计算成本低:算法时间复杂度低,适合海量数据场景
  2. 实现简易性:模型结构简单,易于快速部署

虽然逻辑回归等复杂算法可能在某些场景表现更优,但朴素贝叶斯与GDA凭借其速度优势与简洁性,始终是机器学习实践者的重要工具。