多项式朴素贝叶斯模型参数最大似然估计(MLE)的完整推导以下是多项式朴素贝叶斯模型参数最大似然估计(MLE)的完整推导过

以下是多项式朴素贝叶斯模型参数最大似然估计(MLE)的完整推导过程：

1. 似然函数定义

首先明确参数与数据结构：

数据集：包含 $m$ 个文档的集合 $\{ (x^{(1)}, y^{(1)}), ..., (x^{(m)}, y^{(m)}) \}$
- $x^{(i)}$ 表示第 $i$ 篇文档（含 $n_i$ 个词汇的序列）
- $x_j^{(i)}$ 表示第 $i$ 篇文档的第 $j$ 个词汇
- $y^{(i)}$ 为文档类别标签（如1=垃圾邮件，0=非垃圾邮件）
模型参数：
- $\phi_y = P(y=1)$ ：文档属于垃圾邮件的先验概率
- $\phi_{k|y=1} = P(x_j=k | y=1)$ ：垃圾邮件中出现词典第 $k$ 个词汇的概率

单篇垃圾邮件文档的概率为词汇概率的乘积： $P(x^{(i)}|y^{(i)}=1) = \prod_{j=1}^{n_i} P(x_j^{(i)}|y^{(i)}=1) = \prod_{j=1}^{n_i} \phi_{x_j^{(i)}|y=1}$

整个数据集的似然函数为各文档概率的乘积： $L(\phi) = \prod_{i=1}^{m} P(x^{(i)}, y^{(i)}) = \prod_{i=1}^{m} P(x^{(i)}|y^{(i)}) P(y^{(i)})$

2. 对数似然函数转换

为简化计算，取对数似然函数 $\ell(\phi) = \log L(\phi)$ ： $\ell(\phi) = \sum_{i=1}^{m} \log P(x^{(i)}|y^{(i)}) + \sum_{i=1}^{m} \log P(y^{(i)})$

目标为最大化 $\phi_{k|y=1}$ 相关项，只需关注 $y^{(i)}=1$ 的文档： $\ell' = \sum_{i=1}^{m} 1\{y^{(i)}=1\} \sum_{j=1}^{n_i} \log \phi_{x_j^{(i)}|y=1}$

按词典索引 $k$ 重组表达式（设 $N_k$ 为垃圾邮件中词汇 $k$ 的总出现次数）： $\ell' = \sum_{k=1}^{d} \left( \underbrace{ \sum_{i=1}^{m} 1\{y^{(i)}=1\} \sum_{j=1}^{n_i} 1\{x_j^{(i)}=k\} }_{N_k} \right) \log \phi_{k|y=1} = \sum_{k=1}^{d} N_k \log \phi_{k|y=1}$

3. 拉格朗日约束优化

在概率归一化约束条件下最大化 $\ell'$ ： $\sum_{k=1}^{d} \phi_{k|y=1} = 1$

引入拉格朗日乘子 $\lambda$ 构建目标函数： $\mathcal{L} = \sum_{k=1}^{d} N_k \log \phi_{k|y=1} - \lambda \left( \sum_{k=1}^{d} \phi_{k|y=1} - 1 \right)$

4. 求导解参数

对特定参数 $\phi_{v|y=1}$ 求偏导并令其为零： $\frac{\partial \mathcal{L}}{\partial \phi_{v|y=1}} = \frac{N_v}{\phi_{v|y=1}} - \lambda = 0 \quad \Rightarrow \quad N_v = \lambda \phi_{v|y=1}$

对全部词汇求和推导 $\lambda$ ： $\sum_{v=1}^{d} N_v = \lambda \sum_{v=1}^{d} \phi_{v|y=1} = \lambda \cdot 1$

其中 $\lambda$ 表示垃圾邮件总词汇量： $\lambda = \sum_{v=1}^{d} N_v = \sum_{i=1}^{m} 1\{y^{(i)}=1\} \underbrace{ \sum_{j=1}^{n_i} 1 }_{n_i} = \sum_{i=1}^{m} 1\{y^{(i)}=1\} n_i$

代入解得参数估计式： $\phi_{v|y=1} = \frac{N_v}{\lambda} = \frac{ \sum_{i=1}^{m} \sum_{j=1}^{n_i} 1\{x_j^{(i)}=v \land y^{(i)}=1\} }{ \sum_{i=1}^{m} 1\{y^{(i)}=1\} n_i }$

结论：词汇 $v$ 在垃圾邮件中的最大似然概率估计，等于其在所有垃圾邮件中的出现总次数除以垃圾邮件的词汇总量。