【白板推导系列笔记】数学基础-概率-高斯分布-从概率密度角度观察&局限性

230 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

XN(μ,Σ)=1(2π)p2Σ12exp(12(xμ)TΣ1(xμ)二次型)xRp,r.v.x=(x1x2 xp),μ=(μ1μ2 μp),Σ=(σ11σ12 σ1pσ21σ22 σ2p    σp1σp2 σpp)p×p \begin{gathered} X \sim N(\mu,\Sigma )=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma |^{\frac{1}{2}}}\cdot \text{exp}\left(- \frac{1}{2}\underbrace{(x-\mu)^{T}\Sigma ^{-1}(x-\mu)}_{二次型}\right)\\ x \in \mathbb{R}^{p},r.v.\\ x=\begin{pmatrix} x_{1} \\ x_{2} \\ \vdots  \\ x_{p} \end{pmatrix},\mu=\begin{pmatrix} \mu_{1} \\ \mu_{2} \\ \vdots  \\ \mu_{p} \end{pmatrix},\Sigma =\begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots  & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots  & \sigma_{2p} \\ \vdots  & \vdots  &  & \vdots  \\ \sigma_{p1} & \sigma_{p2} & \cdots  & \sigma_{pp} \end{pmatrix}_{p \times p} \end{gathered}

一般Σ\Sigma是半正定的,这里假设是正定的

其中(xμ)TΣ1(xμ)(x-\mu)^{T}\Sigma ^{-1}(x-\mu),可以看做是xxμ\mu的马氏距离

 

对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为(xμ)TΣ1(xμ)\sqrt{(x-\mu)^{T}\Sigma ^{-1}(x-\mu)}

如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。

链接:马氏距离_百度百科 (baidu.com)

 

由于Σ\Sigma是正定的,显然可以进行特征值分解,有

Σ=UΛUT(这里U是正交矩阵)=(u1,u2,,up)(λ1  00λ2      0  λp)(u1Tu2T upT)=i=1puiλiuiTΣ1=(UΛUT)1=UΛ1UT=i=1pui1λiuiTΔ=(xμ)TΣ1(xμ)=(xμ)Ti=1pui1λiuiT(xμ)=i=1p(xμ)Tui1λi[(xμ)Tui]T=yi=(xμ)Tuii=1pyi1λiyiT(这里yi是一维的)=i=1pyi2λi \begin{aligned} \Sigma &=U \Lambda U^{T}(这里U是正交矩阵)\\ &=(u_{1},u_{2},\cdots ,u_{p})\begin{pmatrix} \lambda_{1} & \cdots  & \cdots  & 0 \\ 0 & \lambda_{2} &  & \vdots  \\ \vdots  &  & \ddots  & \vdots  \\ 0 & \cdots  & \cdots  & \lambda_{p} \end{pmatrix}\begin{pmatrix} u_{1}^{T} \\ u_{2}^{T} \\ \vdots  \\ u_{p}^{T} \end{pmatrix}\\ &=\sum\limits_{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}\\ \Sigma ^{-1}&=(U \Lambda U^{T})^{-1}\\ &=U \Lambda^{-1} U^{T}\\ &=\sum\limits_{i=1}^{p}u_{i} \frac{1}{\lambda_{i}}u_{i}^{T}\\ \Delta &=(x-\mu)^{T}\Sigma ^{-1}(x-\mu)\\ &=(x-\mu)^{T}\sum\limits_{i=1}^{p}u_{i} \frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)\\ &=\sum\limits_{i=1}^{p}(x-\mu)^{T}u_{i} \cdot \frac{1}{\lambda_{i}}\cdot [(x-\mu)^{T}u_{i}]^{T}\\ &\overset{y_{i}=(x-\mu)^{T}u_{i}}{=}\sum\limits_{i=1}^{p}y_{i} \frac{1}{\lambda_{i}}y_{i}^{T}(这里y_{i}是一维的)\\ &=\sum\limits_{i=1}^{p} \frac{y_{i}^{2}}{\lambda_{i}} \end{aligned}

如果令p=2p=2,有

Δ=y12λ1+y22λ2=c(这里c是常数) \Delta =\frac{y_{1}^{2}}{\lambda_{1}}+ \frac{y_{2}^{2}}{\lambda_{2}}=c(这里c是常数)

显然这符合椭圆方程,又有

p(x)=1(2π)p2Σ12exp(12Δ) p(x)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma |^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}\Delta \right)

如果取定一个概率值,又因为μ,Σ\mu,\Sigma都是常数,那么其图像就是一个椭圆。

显然该椭圆长短轴为λ1,λ2\lambda_{1},\lambda_{2};该椭圆中心一般不在x1x_{1}轴和x2x_{2}轴的交点即原点处,因为yi=(xμ)Tuiy_{i}=(x-\mu)^{T}u_{i},也就是说椭圆中心移动了μ\mu;又因为(xμ)Tui(x-\mu)^{T}u_{i}xμx-\muuiu_{i}的方向上的投影,因此椭圆一般是有旋转的(这uiu_{i}来自UU,因此是正交的),如果Σ\Sigma恰好是Λ\Lambda,则该椭圆没有旋转;如果λi=常数\lambda_{i}=常数,则此处为圆

 

 

下面我们看多维高斯模型在实际应用时的两个问题

  1. 参数Σ,μ\Sigma,\mu的有p(p+1)2\begin{aligned} \frac{p(p+1)}{2}\end{aligned}个自由参数,因此其自由度为O(p2)O(p^{2}),对于维度很高的数据其自由度太高。

    (这里p(p+1)2\begin{aligned} \frac{p(p+1)}{2}\end{aligned}是由于σij=σji\sigma_{ij}=\sigma_{ji},因此Σ\Sigma的参数个数即为下三角矩阵的元素个数)

    解决方案:

    Σ\Sigma可以假设其是对角矩阵,即Σ=UΛUT=diag(λi)\Sigma=U \Lambda U^{T}=diag(\lambda_{i})

    甚至在各向同性假设中假设其对角线上的元素都相同。

    前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。

  1. 第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。

作者:tsyw

链接:Introduction · 语雀 (yuque.com)