贝叶斯分类

149 阅读1分钟

什么是贝叶斯分类

贝叶斯分类是有监督的,生成式的,参数模型

核心公式

P(YX)=P(XY)P(X)=P(XY)P(Y)P(X)P(Y|X) =\frac{P(XY)}{P(X)} = \frac{P(X|Y)P(Y)}{P(X)}

符号

πk=P(Y=k)gk(x)=P(XY=k)ηk=P(X=xY=k)g(x)=P(X=x)\pi_{k} = P(Y=k)\\ g_k(x) = P(X|Y=k)\\ \eta_{k} = P(X=x|Y=k)\\ g(x) = P(X=x)

贝叶斯预测

理论最优

R(f)=P(f(X)Y)R=minfR(f)R(f) = P(f(X) \neq Y) \\ R^{*} = \min_{f} R(f)
R(f)=E[1f(X)Y]=EXEYX[1f(X)Y]=EX[k=1Kηk(X)1{f(X)k}]R(f) = \mathbb{E}[\mathbb{1}_{f(X) \neq Y}]=\mathbb{E_X}\mathbb{E_{Y|X}}[\mathbb{1}_{f(X) \neq Y}] = \mathbb{E_X}\left[\sum_{k=1}^K \eta_k(\boldsymbol{X}) \mathbf{1}_{\{f(\boldsymbol{X}) \neq k\}}\right]

获得模型

对于一个二分类问题Y{0,1},假设其分布属于高斯分布,当我们有数据集X及对应的Y时,我们首先可以获得其分布

μj=1Ni:yi=jxiσj=1Ni:yi=j(μxi)2\mu_{j} = \frac{1}{N} \sum_{i:y_i=j}x_i\\ \sigma_{j} =\sqrt{\frac{1}{N} \sum_{i:y_i=j}(\mu-x_i)^2}\\

进行预测

当我们要进行预测时,此时输入测试集获得一个特征向量X,分别求出当X=x的条件下,标签为1和标签为0的概率P(Y=1|X=x)和P(Y=0|X=x)。对二者进行比较即可。

η1(x)=P(Y=1X=x)=P(XY)P(Y)P(X)=P(XY=1)P(Y=1)i=0i=1P(XY=i)η0(x)=P(Y=0X=x)=P(XY)P(Y)P(X)=P(XY=0)P(Y=0)i=0i=1P(XY=i)\eta_{1}(x)=P(Y=1|X=x) = \frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X|Y=1)P(Y=1)}{\sum_{i=0}^{i=1}P(X|Y=i)}\\ \eta_{0}(x)=P(Y=0|X=x) = \frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X|Y=0)P(Y=0)}{\sum_{i=0}^{i=1}P(X|Y=i)}

因为分母相同,所以也可以省略,写成

π1g1=P(Y=1X=x)=P(XY)P(Y)=P(XY=1)P(Y=1)π0g0=P(Y=0X=x)=P(XY)P(Y)=P(XY=0)P(Y=0)\pi_{1}g_{1}=P(Y=1|X=x) = {P(X|Y)P(Y)}=P(X|Y=1)P(Y=1)\\ \pi_{0}g_{0}=P(Y=0|X=x) = {P(X|Y)P(Y)}=P(X|Y=0)P(Y=0)

目标函数

所以贝叶斯分布的目标函数可以写为

argminiηi(x)orargminiπigi\arg \min_{i} \eta_{i}(x) \quad or\\ \arg \min_{i} \pi_{i}g_{i}

问题

实际应用中,我们有的只是训练数据并没有XY的联合概率密度,所以不能应用贝叶斯分类,为了解决这个问题,我们引入插入分类器,即假设分布属于高斯分布,从数据集中求出高斯分布的参数

π^k=nkn,nk={i:yi=k}μ^k=1nki:yi=kxiΣ^=1ni=1n(xiμ^yi)(xiμ^yi)T.\widehat{\pi}_k =\frac{n_k}{n}, \quad n_k=\left|\left\{i: y_i=k\right\}\right| \\ \widehat{\boldsymbol{\mu}}_k =\frac{1}{n_k} \sum_{i: y_i=k} \boldsymbol{x}_i \\ \widehat{\boldsymbol{\Sigma}} =\frac{1}{n} \sum_{i=1}^n\left(\boldsymbol{x}_i-\widehat{\boldsymbol{\mu}}_{y_i}\right)\left(\boldsymbol{x}_i-\widehat{\boldsymbol{\mu}}_{y_i}\right)^T .

所以贝叶斯分类转化为LDA,这是一个线性分类器

argminiπiϕi(x,μi,σi)\arg \min_{i} \pi_{i}\phi_i(x,\mu_{i},\sigma_{i})
f^(x)=argmaxklogπ^k+logϕ(x;μ^k,Σ^)=argmaxklogπ^kd2log2π12logΣ^12(xμ^k)TΣ^1(xμ^k)=argmaxklogπ^k12(xμ^k)TΣ^1(xμ^k)=argmaxklogπ^k12[xTΣ^1x2xTΣ^1μ^k+μ^kTΣ^1μ^k]=argmaxk[logπ^k+xTΣ^1μ^k12μ^kTΣ^1μ^k]=argmaxkwkTx+bk\begin{aligned} \widehat{f}(\boldsymbol{x}) &=\underset{k}{\arg \max } \log \widehat{\pi}_k+\log \phi\left(\boldsymbol{x} ; \widehat{\boldsymbol{\mu}}_k, \widehat{\boldsymbol{\Sigma}}\right) \\ &=\underset{k}{\arg \max } \log \widehat{\pi}_k-\frac{d}{2} \log 2 \pi-\frac{1}{2} \log |\widehat{\boldsymbol{\Sigma}}|-\frac{1}{2}\left(\boldsymbol{x}-\widehat{\boldsymbol{\mu}}_k\right)^T \widehat{\boldsymbol{\Sigma}}^{-1}\left(\boldsymbol{x}-\widehat{\boldsymbol{\mu}}_k\right) \\ &=\underset{k}{\arg \max } \log \widehat{\pi}_k-\frac{1}{2}\left(\boldsymbol{x}-\widehat{\boldsymbol{\mu}}_k\right)^T \widehat{\boldsymbol{\Sigma}}^{-1}\left(\boldsymbol{x}-\widehat{\boldsymbol{\mu}}_k\right) \\ &=\underset{k}{\arg \max } \log \widehat{\pi}_k-\frac{1}{2}\left[\boldsymbol{x}^T \widehat{\boldsymbol{\Sigma}}^{-1} \boldsymbol{x}-2 \boldsymbol{x}^T \widehat{\boldsymbol{\Sigma}}^{-1} \widehat{\boldsymbol{\mu}}_k+\widehat{\boldsymbol{\mu}}_k^T \widehat{\boldsymbol{\Sigma}}^{-1} \widehat{\boldsymbol{\mu}}_k\right] \\ &=\underset{k}{\arg \max }\left[ \log \widehat{\pi}_k+\boldsymbol{x}^T \widehat{\boldsymbol{\Sigma}}^{-1} \widehat{\boldsymbol{\mu}}_k-\frac{1}{2} \widehat{\boldsymbol{\mu}}_k^T \widehat{\boldsymbol{\Sigma}}^{-1} \widehat{\boldsymbol{\mu}}_k\right] \\ &=\underset{k}{\arg \max } \boldsymbol{w}_k^T \boldsymbol{x}+b_k \end{aligned}

其中 wk=Σ^1μ^k and bk=logπ^k12μ^kTΣ^1μ^k\boldsymbol{w}_k=\widehat{\mathbf{\Sigma}}^{-1} \widehat{\boldsymbol{\mu}}_k \text { and } b_k=\log \widehat{\pi}_k-\frac{1}{2} \widehat{\boldsymbol{\mu}}_k^T \widehat{\Sigma}^{-1} \widehat{\boldsymbol{\mu}}_k