贝叶斯分类器

124 阅读1分钟

条件概率

P(AB)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}
P(AB)=P(AB)P(B)=P(BA)P(A)P(AB) = P(A|B)P(B) = P(B|A)P(A)

贝叶斯公式

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

后验概率

P(cx)=P(c,x)P(x)=P(c)P(xc)P(x)P(c|x) = \frac{P(c,x)}{P(x)} = \frac{P(c)P(x|c)}{P(x)}
  • P(x)P(x) 样本 xx 在样本空间中出现的概率
  • P(xc)P(x|c) 样本 xx 相对于类别 cc 的类条件概率
  • P(c)P(c) 先验概率

朴素贝叶斯

很难估计 xx 的所有维联合发生的概率, 只能假设各维度条件独立, 因此联合概率变成各维度概率的 连乘

P(cx)=P(c)P(xc)P(x)=P(c)P(x)i=1dP(xic)P(c|x) = \frac{P(c)P(x|c)}{P(x)} = \frac{P(c)}{P(x)}\prod_{i=1}^dP(x_i|c)

判决函数

h(x)=max(P(c)i=1dP(xic))h(x) = max\left(P(c)\prod_{i=1}^dP(x_i|c)\right)

概率估计

类先验概率

P(c)=DcDP(c) = \frac{|D_c|}{|D|}

类条件概率(离散)

P(xic)=Dc,xiDcP(x_i|c) = \frac{|D_{c,x_i}|}{|D_c|}

类条件概率(连续)

P(xic)=12πσc,ie(xiμc,i)22σc,i2P(x_i|c) = \frac{1}{\sqrt{2\pi}\sigma_{c,i}}e^{-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}}}

存在问题

训练样本不足时, 导致概率估计为零, 可以进行 拉普拉斯修正

P^(c)=Dc+1D+N,N:数据集类别数\hat{P}(c) = \frac{|D_c| + 1}{|D| + N}, N: 数据集类别数
P^(xic)=Dc,xi+1Dc+Ni,Ni:i维特征的可能取值数\hat{P}(x_i|c) = \frac{|D_{c,x_i}| + 1}{|D_c| + N_i}, N_i: 第 i 维特征的可能取值数

算法

  1. 数据预处理
  2. 利用计算好的 P(c)P(c)P(xic)P(x_i|c) 计算后验概率
  3. 选择最大的后验概率对应的类别进行输出

最小化风险

R(cix)=j=1NλijP(cjx)R(c_i|x) = \sum_{j=1}^N\lambda_{ij}P(c_j|x)

在每个样本上选择使条件风险最小的类别标记

h(x)=minR(cx)h^*(x) = minR(c|x)

贝叶斯信念网

使用条件概率表来描述属性的联合概率分布

image.png

P(x1,x2,x3,x4,x5)=P(x1)P(x2)P(x3x1)P(x4x1,x2)P(x5x1)P(x_1, x_2, x_3, x_4, x_5) = P(x_1)P(x_2)P(x_3|x_1)P(x_4|x_1,x_2)P(x_5|x_1)

贝叶斯语言模型

P(S)=P(w1,w2,)=P(w1)P(w2w1)P(w3w2,w1)P(S) = P(w_1,w_2,\cdots) = P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)\cdots

句子 SS 由单词 wiw_i 组合而成, 预估概率的时候总是往前看几个单词, 即 P(w2w1)P(w_2|w_1)

Markov 假设

下一个词的出现概率仅依赖前面一个或几个词

  • 1-gram(不依赖前面的词, 朴素)

    P(S)=P(w1)P(w2)P(w3)P(S) = P(w_1)P(w_2)P(w_3)\cdots
  • 2-gram(依赖前面一个词)

    P(S)=P(w1)P(w2w1)P(w3w2)P(S) = P(w_1)P(w_2|w_1)P(w_3|w_2)\cdots
  • 3-gram(依赖前面两个词)

P(S)=P(w1)P(w2w1)P(w3w2,w1)P(w4w3,w2)P(S) = P(w_1)P(w_2|w_1)P(w_3|w_2,w_1)P(w_4|w_3,w_2)\cdots

EM 算法

解决数据缺失条件下的参数估计问题, 其认为分布未被现有观测数据完全体现, 存在 隐含变量

未被观测的随机事件用 ZZ 表示

P(Xθ)=P(X,Zθ)=ZP(XZ,θ)P(Zθ)P(X|\theta) = P(X, Z|\theta) = \sum_{Z}P(X|Z,\theta)P(Z|\theta)

使用极大似然法估计模型参数

θ^=maxθlnP(X,Zθ)\hat\theta=\underset{\theta}{max}lnP(X,Z|\theta)

交替执行 EE 步和 MM 步, 直至收敛到局部最优解

EE

Q(ΘΘT)=EZX,ΘTLL(ΘX,Z)Q(\Theta|\Theta^T)=E_{Z|X,\Theta^T}LL(\Theta|X,Z)

MM

Θt+1=maxΘQ(ΘΘt)\Theta^{t+1} = \underset{\Theta}{max}Q(\Theta|\Theta^t)