多元正态分布初识

178 阅读2分钟

在本科阶段的教材中,往往会有多元正态分布的公式出现,但课堂上都不会重点讲解,而在研究生入学考试中也基本不会考。但在实际应用中,多元的情况却非常常见。

本文通过对多元正态分布的公式进行拆解,来正式认识一下它。

1 多元正态分布公式

对于DD维正态分布变量xx,直接上它的密度公式:

N(xμ,Σ)=1(2π)D/21Σ1/2exp{12(xμ)Σ1(xμ)}\mathcal{N}(x|\mu,\Sigma)=\dfrac{1}{(2\pi)^{D/2}}\dfrac{1}{\vert\Sigma\vert^{1/2}}\exp\left\{-\dfrac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu)\right\}

其中μ\muD×1D\times 1的均值向量,Σ\SigmaD×DD\times D的协方差矩阵。

公式看起来十分复杂,相信第一次见到时,几乎所有人都会被吓到。沉住气,我们把它拆解了看。

2 公式拆解

先看最后面指数函数中的部分,其中有一个二次型:

Δ2=(xμ)Σ1(xμ)\Delta^2=(x-\mu)'\Sigma^{-1}(x-\mu)

Δ\Delta叫作μ\muxx之间的Mahalanobis distance,中文叫马哈拉诺比斯距离或者马氏距离,是印度统计学家Mahalanobis提出的。

Σ\Sigma一般可以是对称矩阵,考虑它的DD个特征值λi\lambda_i和相应的相互正交的特征向量uiu_iΣui=λiui\Sigma u_i = \lambda_i u_i,记U=(u1,,uD)U=(u_1,\cdots,u_D)UU满足UU=IDU'U=I_D,再记Λ=diag(λ1,,λD)\Lambda=\text{diag}(\lambda_1,\cdots,\lambda_D),那么可将Σ\Sigma写成特征向量展开的形式:

Σ=UΛU=i=1Dλiuiui\Sigma =U\Lambda U'= \sum_{i=1}^{D} \lambda_i u_i u_i'

如果做换元y=U(xμ)y=U'(x-\mu),则有Δ2=yΛ1y\Delta^2=y'\Lambda^{-1}y,也就是说,通过换元,我们将原来在xx坐标系下的分布,变成了一个在yy坐标系下的、各个分量互相不相关的分布。如图所示:

再看在指数函数前面的部分,由Σ=UΛU\Sigma =U\Lambda U'可知Σ=Λ|\Sigma|=|\Lambda|,因此Σ1=Λ1=j=1Dλj1|\Sigma|^{-1}=|\Lambda|^{-1}=\prod\limits_{j=1}^{D}\lambda_j^{-1}

利用Jacobian matrix J=UJ=U',并由J2=UU=1|J|^2=|U'U|=1可得J=1|J|=1,于是我们可以将原来的密度函数直接变换为

fY(y)=JfX(x(y))=1(2π)D/21Λ1/2exp{12yΛ1y}=j=1D1(2πλj)1/2exp(yj22λj)\begin{aligned} f_Y(y) =& |J|f_X\left(x(y)\right)\\ =& \dfrac{1}{(2\pi)^{D/2}}\dfrac{1}{\vert\Lambda\vert^{1/2}}\exp\left\{-\dfrac{1}{2}y'\Lambda^{-1}y\right\}\\ =& \prod_{j=1}^{D} \dfrac{1}{(2\pi \lambda_j)^{1/2}}\exp(-\dfrac{y_j^2}{2\lambda_j}) \end{aligned}

在原来的xx坐标系下,各分量之间可能有相关性,对应二维时候的图像为下图(1),而在新的yy坐标系下,协方差矩阵变为对角矩阵,也因此图像变为下图中(2)的情况,而若各分量同方差,则会变为类似于标准正态分布的同心圆即下图(3)的形式: