条件概率
P(A∣B)=P(B)P(AB)
P(AB)=P(A∣B)P(B)=P(B∣A)P(A)
贝叶斯公式
P(A∣B)=P(B)P(B∣A)P(A)
后验概率
P(c∣x)=P(x)P(c,x)=P(x)P(c)P(x∣c)
- P(x) 样本 x 在样本空间中出现的概率
- P(x∣c) 样本 x 相对于类别 c 的类条件概率
- P(c) 先验概率
朴素贝叶斯
很难估计 x 的所有维联合发生的概率, 只能假设各维度条件独立, 因此联合概率变成各维度概率的 连乘
P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)i=1∏dP(xi∣c)
判决函数
h(x)=max(P(c)i=1∏dP(xi∣c))
概率估计
类先验概率
P(c)=∣D∣∣Dc∣
类条件概率(离散)
P(xi∣c)=∣Dc∣∣Dc,xi∣
类条件概率(连续)
P(xi∣c)=2πσc,i1e−2σc,i2(xi−μc,i)2
存在问题
训练样本不足时, 导致概率估计为零, 可以进行 拉普拉斯修正
P^(c)=∣D∣+N∣Dc∣+1,N:数据集类别数
P^(xi∣c)=∣Dc∣+Ni∣Dc,xi∣+1,Ni:第i维特征的可能取值数
算法
- 数据预处理
- 利用计算好的 P(c) 和 P(xi∣c) 计算后验概率
- 选择最大的后验概率对应的类别进行输出
最小化风险
R(ci∣x)=j=1∑NλijP(cj∣x)
在每个样本上选择使条件风险最小的类别标记
h∗(x)=minR(c∣x)
贝叶斯信念网
使用条件概率表来描述属性的联合概率分布

P(x1,x2,x3,x4,x5)=P(x1)P(x2)P(x3∣x1)P(x4∣x1,x2)P(x5∣x1)
贝叶斯语言模型
P(S)=P(w1,w2,⋯)=P(w1)P(w2∣w1)P(w3∣w2,w1)⋯
句子 S 由单词 wi 组合而成, 预估概率的时候总是往前看几个单词, 即 P(w2∣w1)
Markov 假设
下一个词的出现概率仅依赖前面一个或几个词
-
1-gram(不依赖前面的词, 朴素)
P(S)=P(w1)P(w2)P(w3)⋯
-
2-gram(依赖前面一个词)
P(S)=P(w1)P(w2∣w1)P(w3∣w2)⋯
-
3-gram(依赖前面两个词)
P(S)=P(w1)P(w2∣w1)P(w3∣w2,w1)P(w4∣w3,w2)⋯
EM 算法
解决数据缺失条件下的参数估计问题, 其认为分布未被现有观测数据完全体现, 存在 隐含变量
未被观测的随机事件用 Z 表示
P(X∣θ)=P(X,Z∣θ)=Z∑P(X∣Z,θ)P(Z∣θ)
使用极大似然法估计模型参数
θ^=θmaxlnP(X,Z∣θ)
交替执行 E 步和 M 步, 直至收敛到局部最优解
E 步
Q(Θ∣ΘT)=EZ∣X,ΘTLL(Θ∣X,Z)
M 步
Θt+1=ΘmaxQ(Θ∣Θt)