贝叶斯分类器条件概率 $$ P(A|B) = \frac{P(AB)}{P(B)} $$ $$ P(AB) = P(A|

条件概率

P(A|B) = \frac{P(AB)}{P(B)}

P(AB) = P(A|B)P(B) = P(B|A)P(A)

P(A|B) = \frac{P(B|A)P(A)}{P(B)}

P(c|x) = \frac{P(c,x)}{P(x)} = \frac{P(c)P(x|c)}{P(x)}

很难估计 $x$ 的所有维联合发生的概率, 只能假设各维度条件独立, 因此联合概率变成各维度概率的 连乘

P(c|x) = \frac{P(c)P(x|c)}{P(x)} = \frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c)

h(x) = max\left(P(c)\prod_{i=1}^dP(x_i|c)\right)

类先验概率

P(c) = \frac{|D_c|}{|D|}

类条件概率(离散)

P(x_i|c) = \frac{|D_{c,x_i}|}{|D_c|}

类条件概率(连续)

P(x_i|c) = \frac{1}{\sqrt{2\pi}\sigma_{c,i}}e^{-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}}}

训练样本不足时, 导致概率估计为零, 可以进行 拉普拉斯修正

\hat{P}(c) = \frac{|D_c| + 1}{|D| + N}, N: 数据集类别数

\hat{P}(x_i|c) = \frac{|D_{c,x_i}| + 1}{|D_c| + N_i}, N_i: 第 i 维特征的可能取值数

R(c_i|x) = \sum_{j=1}^N\lambda_{ij}P(c_j|x)

在每个样本上选择使条件风险最小的类别标记

h^*(x) = minR(c|x)

使用条件概率表来描述属性的联合概率分布

P(x_1, x_2, x_3, x_4, x_5) = P(x_1)P(x_2)P(x_3|x_1)P(x_4|x_1,x_2)P(x_5|x_1)

P(S) = P(w_1,w_2,\cdots) = P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)\cdots

句子 $S$ 由单词 $w_i$ 组合而成, 预估概率的时候总是往前看几个单词, 即 $P(w_2|w_1)$

下一个词的出现概率仅依赖前面一个或几个词

P(S) = P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)P(w_4|w_3,w_2)\cdots

解决数据缺失条件下的参数估计问题, 其认为分布未被现有观测数据完全体现, 存在 隐含变量

未被观测的随机事件用 $Z$ 表示

P(X|\theta) = P(X, Z|\theta) = \sum_{Z}P(X|Z,\theta)P(Z|\theta)

使用极大似然法估计模型参数

\hat\theta=\underset{\theta}{max}lnP(X,Z|\theta)

交替执行 $E$ 步和 $M$ 步, 直至收敛到局部最优解

$E$ 步

Q(\Theta|\Theta^T)=E_{Z|X,\Theta^T}LL(\Theta|X,Z)

$M$ 步

\Theta^{t+1} = \underset{\Theta}{max}Q(\Theta|\Theta^t)