3.2.7 Maximum likelihood 公式3.106

3 阅读1分钟

推导公式 (3.106) 的过程涉及到对多元高斯分布的对数似然函数关于协方差矩阵 Σ\Sigma 的最大化。我们从对数似然函数开始:

lnp(Xμ,Σ)=ND2ln(2π)N2lnΣ12n=1N(xnμ)TΣ1(xnμ).\ln p(\mathbf{X}|\mu, \Sigma) = -\frac{ND}{2} \ln(2\pi) - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n=1}^{N} (x_n - \mu)^T \Sigma^{-1}(x_n - \mu).

为了找到 Σ\Sigma 的最大似然估计 ΣML\Sigma_{\text{ML}},我们需要对 Σ\Sigma 求导并设导数为零。首先,我们关注对数似然函数中与 Σ\Sigma 相关的部分:

N2lnΣ12n=1N(xnμ)TΣ1(xnμ).-\frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n=1}^{N} (x_n - \mu)^T \Sigma^{-1}(x_n - \mu).

我们对 Σ\Sigma 求导。使用矩阵微分的规则,我们有:

Σ(N2lnΣ)=N2Σ1,\frac{\partial}{\partial \Sigma} \left( -\frac{N}{2} \ln |\Sigma| \right) = -\frac{N}{2} \Sigma^{-1},

Σ(12n=1N(xnμ)TΣ1(xnμ))=12n=1NΣ1(xnμ)(xnμ)TΣ1.\frac{\partial}{\partial \Sigma} \left( -\frac{1}{2} \sum_{n=1}^{N} (x_n - \mu)^T \Sigma^{-1}(x_n - \mu) \right) = \frac{1}{2} \sum_{n=1}^{N} \Sigma^{-1} (x_n - \mu) (x_n - \mu)^T \Sigma^{-1}.

将这两部分结合起来,我们得到对数似然函数关于 Σ\Sigma 的导数:

Σlnp(Xμ,Σ)=N2Σ1+12n=1NΣ1(xnμ)(xnμ)TΣ1.\frac{\partial}{\partial \Sigma} \ln p(\mathbf{X}|\mu, \Sigma) = -\frac{N}{2} \Sigma^{-1} + \frac{1}{2} \sum_{n=1}^{N} \Sigma^{-1} (x_n - \mu) (x_n - \mu)^T \Sigma^{-1}.

设导数为零,我们得到:

N2Σ1+12n=1NΣ1(xnμ)(xnμ)TΣ1=0.-\frac{N}{2} \Sigma^{-1} + \frac{1}{2} \sum_{n=1}^{N} \Sigma^{-1} (x_n - \mu) (x_n - \mu)^T \Sigma^{-1} = 0.

两边同时乘以 2Σ2 \Sigma,我们得到:

NΣ+n=1N(xnμ)(xnμ)T=0.-N \Sigma + \sum_{n=1}^{N} (x_n - \mu) (x_n - \mu)^T = 0.

解这个方程,我们得到 Σ\Sigma 的最大似然估计:

ΣML=1Nn=1N(xnμML)(xnμML)T,\Sigma_{\text{ML}} = \frac{1}{N} \sum_{n=1}^{N} (x_n - \mu_{\text{ML}}) (x_n - \mu_{\text{ML}})^T,

其中 μML\mu_{\text{ML}} 是均值 μ\mu 的最大似然估计,即样本均值:

μML=1Nn=1Nxn.\mu_{\text{ML}} = \frac{1}{N} \sum_{n=1}^{N} x_n.