本文已参与「新人创作礼」活动,一起开启掘金创作之路。
X∼N(μ,Σ)=(2π)2p∣Σ∣211⋅exp⎝⎛−21二次型(x−μ)TΣ−1(x−μ)⎠⎞x∈Rp,r.v.x=⎝⎛x1x2⋮ xp⎠⎞,μ=⎝⎛μ1μ2⋮ μp⎠⎞,Σ=⎝⎛σ11σ21⋮ σp1σ12σ22⋮ σp2⋯ ⋯ ⋯ σ1pσ2p⋮ σpp⎠⎞p×p
一般Σ是半正定的,这里假设是正定的
其中(x−μ)TΣ−1(x−μ),可以看做是x和μ的马氏距离
对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为(x−μ)TΣ−1(x−μ)。
如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
链接:马氏距离_百度百科 (baidu.com)
由于Σ是正定的,显然可以进行特征值分解,有
ΣΣ−1Δ=UΛUT(这里U是正交矩阵)=(u1,u2,⋯,up)⎝⎛λ10⋮ 0⋯ λ2 ⋯ ⋯ ⋱ ⋯ 0⋮ ⋮ λp⎠⎞⎝⎛u1Tu2T⋮ upT⎠⎞=i=1∑puiλiuiT=(UΛUT)−1=UΛ−1UT=i=1∑puiλi1uiT=(x−μ)TΣ−1(x−μ)=(x−μ)Ti=1∑puiλi1uiT(x−μ)=i=1∑p(x−μ)Tui⋅λi1⋅[(x−μ)Tui]T=yi=(x−μ)Tuii=1∑pyiλi1yiT(这里yi是一维的)=i=1∑pλiyi2
如果令p=2,有
Δ=λ1y12+λ2y22=c(这里c是常数)
显然这符合椭圆方程,又有
p(x)=(2π)2p∣Σ∣211exp(−21Δ)
如果取定一个概率值,又因为μ,Σ都是常数,那么其图像就是一个椭圆。
显然该椭圆长短轴为λ1,λ2;该椭圆中心一般不在x1轴和x2轴的交点即原点处,因为yi=(x−μ)Tui,也就是说椭圆中心移动了μ;又因为(x−μ)Tui即x−μ在ui的方向上的投影,因此椭圆一般是有旋转的(这ui来自U,因此是正交的),如果Σ恰好是Λ,则该椭圆没有旋转;如果λi=常数,则此处为圆
下面我们看多维高斯模型在实际应用时的两个问题
- 参数Σ,μ的有2p(p+1)个自由参数,因此其自由度为O(p2),对于维度很高的数据其自由度太高。
(这里2p(p+1)是由于σij=σji,因此Σ的参数个数即为下三角矩阵的元素个数)
解决方案:
Σ可以假设其是对角矩阵,即Σ=UΛUT=diag(λi)
甚至在各向同性假设中假设其对角线上的元素都相同。
前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。
-
第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。
作者:tsyw
链接:Introduction · 语雀 (yuque.com)