什么是贝叶斯分类
贝叶斯分类是有监督的,生成式的,参数模型
核心公式
P(Y∣X)=P(X)P(XY)=P(X)P(X∣Y)P(Y)
符号
πk=P(Y=k)gk(x)=P(X∣Y=k)ηk=P(X=x∣Y=k)g(x)=P(X=x)
贝叶斯预测
理论最优
R(f)=P(f(X)=Y)R∗=fminR(f)
R(f)=E[1f(X)=Y]=EXEY∣X[1f(X)=Y]=EX[k=1∑Kηk(X)1{f(X)=k}]
获得模型
对于一个二分类问题Y{0,1},假设其分布属于高斯分布,当我们有数据集X及对应的Y时,我们首先可以获得其分布
μj=N1i:yi=j∑xiσj=N1i:yi=j∑(μ−xi)2
进行预测
当我们要进行预测时,此时输入测试集获得一个特征向量X,分别求出当X=x的条件下,标签为1和标签为0的概率P(Y=1|X=x)和P(Y=0|X=x)。对二者进行比较即可。
η1(x)=P(Y=1∣X=x)=P(X)P(X∣Y)P(Y)=∑i=0i=1P(X∣Y=i)P(X∣Y=1)P(Y=1)η0(x)=P(Y=0∣X=x)=P(X)P(X∣Y)P(Y)=∑i=0i=1P(X∣Y=i)P(X∣Y=0)P(Y=0)
因为分母相同,所以也可以省略,写成
π1g1=P(Y=1∣X=x)=P(X∣Y)P(Y)=P(X∣Y=1)P(Y=1)π0g0=P(Y=0∣X=x)=P(X∣Y)P(Y)=P(X∣Y=0)P(Y=0)
目标函数
所以贝叶斯分布的目标函数可以写为
argiminηi(x)orargiminπigi
问题
实际应用中,我们有的只是训练数据并没有XY的联合概率密度,所以不能应用贝叶斯分类,为了解决这个问题,我们引入插入分类器,即假设分布属于高斯分布,从数据集中求出高斯分布的参数
πk=nnk,nk=∣{i:yi=k}∣μk=nk1i:yi=k∑xiΣ=n1i=1∑n(xi−μyi)(xi−μyi)T.
所以贝叶斯分类转化为LDA,这是一个线性分类器
argiminπiϕi(x,μi,σi)
f(x)=kargmaxlogπk+logϕ(x;μk,Σ)=kargmaxlogπk−2dlog2π−21log∣Σ∣−21(x−μk)TΣ−1(x−μk)=kargmaxlogπk−21(x−μk)TΣ−1(x−μk)=kargmaxlogπk−21[xTΣ−1x−2xTΣ−1μk+μkTΣ−1μk]=kargmax[logπk+xTΣ−1μk−21μkTΣ−1μk]=kargmaxwkTx+bk
其中
wk=Σ−1μk and bk=logπk−21μkTΣ−1μk