在本科阶段的教材中,往往会有多元正态分布的公式出现,但课堂上都不会重点讲解,而在研究生入学考试中也基本不会考。但在实际应用中,多元的情况却非常常见。
本文通过对多元正态分布的公式进行拆解,来正式认识一下它。
1 多元正态分布公式
对于D维正态分布变量x,直接上它的密度公式:
N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)′Σ−1(x−μ)}
其中μ为D×1的均值向量,Σ为D×D的协方差矩阵。
公式看起来十分复杂,相信第一次见到时,几乎所有人都会被吓到。沉住气,我们把它拆解了看。
2 公式拆解
先看最后面指数函数中的部分,其中有一个二次型:
Δ2=(x−μ)′Σ−1(x−μ)
Δ叫作μ和x之间的Mahalanobis distance,中文叫马哈拉诺比斯距离或者马氏距离,是印度统计学家Mahalanobis提出的。
Σ一般可以是对称矩阵,考虑它的D个特征值λi和相应的相互正交的特征向量ui,Σui=λiui,记U=(u1,⋯,uD),U满足U′U=ID,再记Λ=diag(λ1,⋯,λD),那么可将Σ写成特征向量展开的形式:
Σ=UΛU′=i=1∑Dλiuiui′
如果做换元y=U′(x−μ),则有Δ2=y′Λ−1y,也就是说,通过换元,我们将原来在x坐标系下的分布,变成了一个在y坐标系下的、各个分量互相不相关的分布。如图所示:

再看在指数函数前面的部分,由Σ=UΛU′可知∣Σ∣=∣Λ∣,因此∣Σ∣−1=∣Λ∣−1=j=1∏Dλj−1。
利用Jacobian matrix J=U′,并由∣J∣2=∣U′U∣=1可得∣J∣=1,于是我们可以将原来的密度函数直接变换为
fY(y)===∣J∣fX(x(y))(2π)D/21∣Λ∣1/21exp{−21y′Λ−1y}j=1∏D(2πλj)1/21exp(−2λjyj2)
在原来的x坐标系下,各分量之间可能有相关性,对应二维时候的图像为下图(1),而在新的y坐标系下,协方差矩阵变为对角矩阵,也因此图像变为下图中(2)的情况,而若各分量同方差,则会变为类似于标准正态分布的同心圆即下图(3)的形式:
