EM算法简略最大期望算法**（Expectation-maximization algorithm，又译期望最大化算法

个人理解要点总结，做备忘

以后有空再仔细更新

一些不错的参考：参考1 参考2

最大期望算法**（Expectation-maximization algorithm，又译期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。在统计计算中，**最大期望（EM）算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类（Data Clustering）领域。最大期望算法经过两个步骤交替进行计算，第一步是计算期望（E），利用对隐藏变量的现有估计值，计算其最大似然估计值；第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。 wiki解释
EM算法干嘛的：解决有隐变量的最大似然估计问题。

算法整体框架

初始化分布参数
while（not 收敛）：
	E步骤：根据参数的假设值，给出未知变量的期望估计，应用于缺失值。
	M步骤：根据未知变量的估计值，给出当前的参数的极大似然估计。

问题定义

怎么求

记录一下要点

我的理解

含有隐变量的问题中，似然函数有两个变量 $Y,Z$ ，无法直接求导求极值，思路是迭代优化。
那么先初始化，此时可以写出似然函数（很复杂的表达式，让似然函数区最大等价于最大化这里的 $Q$ 函数（可以证明，慕课有）， $Q$ 函数是期望，这就是 $E$ 步（expectation）；
最大化 $Q$ 函数可以得到更新的参数，其中一个可以更新的参数是隐变量属于各个类别的概率

和三硬币模型对照看

三硬币模型E步中，省略了似然函数，省略了Q函数，直接求出了更新参数值，实际上你如果按照Q函数去求就是这个结果，这里省略了这个步骤。
$\mu ^{i+1}$ 代表第 $i$ 个观测样本 $y_i$ 是来自硬币B的概率求 $\mu ^{i+1} =\frac {硬币来自B} {硬币来自B+硬币不来自B（来自C）}$ ，我们认为这个等式屏直觉直接可以写出，实际上通过最大似然函数或者最大Q函数也会得到这个。
EM算法收敛性可以用琴生不等式证明，挺复杂，略。主要要了解EM算法思想

常用聚类模型

要点

有一堆要聚类的数据，假设每一类服从某种高斯分布，要求出各自高斯分布参数。但是对于一个样本不知道它属于哪一个类别，样本属于的类别就是一个变量，我们无法知道，就叫做隐变量
GMM也是含有隐变量的求最大似然函数问题，用 EM算法求解。

EM算法 简略