推导公式 (3.106) 的过程涉及到对多元高斯分布的对数似然函数关于协方差矩阵 Σ 的最大化。我们从对数似然函数开始:
lnp(X∣μ,Σ)=−2NDln(2π)−2Nln∣Σ∣−21n=1∑N(xn−μ)TΣ−1(xn−μ).
为了找到 Σ 的最大似然估计 ΣML,我们需要对 Σ 求导并设导数为零。首先,我们关注对数似然函数中与 Σ 相关的部分:
−2Nln∣Σ∣−21n=1∑N(xn−μ)TΣ−1(xn−μ).
我们对 Σ 求导。使用矩阵微分的规则,我们有:
∂Σ∂(−2Nln∣Σ∣)=−2NΣ−1,
和
∂Σ∂(−21n=1∑N(xn−μ)TΣ−1(xn−μ))=21n=1∑NΣ−1(xn−μ)(xn−μ)TΣ−1.
将这两部分结合起来,我们得到对数似然函数关于 Σ 的导数:
∂Σ∂lnp(X∣μ,Σ)=−2NΣ−1+21n=1∑NΣ−1(xn−μ)(xn−μ)TΣ−1.
设导数为零,我们得到:
−2NΣ−1+21n=1∑NΣ−1(xn−μ)(xn−μ)TΣ−1=0.
两边同时乘以 2Σ,我们得到:
−NΣ+n=1∑N(xn−μ)(xn−μ)T=0.
解这个方程,我们得到 Σ 的最大似然估计:
ΣML=N1n=1∑N(xn−μML)(xn−μML)T,
其中 μML 是均值 μ 的最大似然估计,即样本均值:
μML=N1n=1∑Nxn.