高斯混合模型(GMM)

190 阅读1分钟
原文链接: zhuanlan.zhihu.com

二维高斯密度函数的等概率线为椭圆


上图左面用单一高斯分布去描述,显然没有右图用两个高斯分布去描述的效果好。所以下面介绍高斯混合模型。

高斯混合模型,顾名思义,用多个高斯模型去描述数据的分布。


如上图,我们用三个高斯分布去描述一个二维的数据。

现在我们定义K个高斯密度叠加:

p(x)=\sum_{k=1}^K\pi_k\aleph(\textbf{x}|{\mu}_k,\Sigma_k) (1)

对于每一个高斯密度函数有自己的均值 \mu_k和方差 \Sigma_k , \pi_k 作为混合的比例系数有:

\sum_{k=1}^K\pi_k=1


(a)为不同混合比例下的高斯概率密度分布(b)为混合状态下的概率密度分布(c)为概率密度分布的表面图。

p(x) 可以改写为:

p(x)=\sum_{k=1}^Kp(k)p(x|k) 并与公式(1)对比,有

\pi_k=p(k) , p(x|k)=\aleph(\textbf{x}|{\mu}_k,\Sigma_k)

则后验概率 p(k|x) 根据贝叶斯理论,可表示为:

\gamma_k(\textbf{x})\equiv p(k|x)=\frac{p(k)p(\textbf{x}|k)}{\sum_lp(l)p(\textbf{x}|l)}=\frac{\pi_k\aleph(\textbf{x}|{\mu}_k,\Sigma_k)}{\sum_l{\pi_l\aleph(\textbf{x}|{\mu}_l,\Sigma_l)}}

因此GMM由 \bf{\pi,\mu,\Sigma} 确定,且有参数K的存在。下面一节我们将介绍EM(expectation maximization)方法。