EM算法 简略

138 阅读3分钟

个人理解 要点总结,做备忘

以后有空再仔细更新

一些不错的参考: 参考1 参考2

参考清华慕课

总览

  • 最大期望算法**(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。在统计计算中,**最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习计算机视觉数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。 wiki解释

  • EM算法干嘛的:解决有隐变量的最大似然估计问题。

算法整体框架

初始化分布参数
whilenot 收敛):
	E步骤:根据参数的假设值,给出未知变量的期望估计,应用于缺失值。
	M步骤:根据未知变量的估计值,给出当前的参数的极大似然估计。

三硬币模型

问题定义

怎么求

记录一下要点

EM算法流程

参考清华慕课

  1. 初始化

  2. E 步

  1. M 步
  2. 重复2,3步直到收敛

我的理解

  • 含有隐变量的问题中,似然函数有两个变量 Y,ZY,Z, 无法直接求导求极值,思路是迭代优化。

  • 那么先初始化,此时可以写出似然函数(很复杂的表达式 ,让似然函数区最大等价于最大化这里的 QQ 函数 (可以证明,慕课有), QQ 函数是 期望,这就是EE 步(expectation);

  • 最大化QQ 函数 可以得到更新的参数,其中一个可以更新的参数是隐变量属于各个类别的概率

和三硬币模型对照看

  • 三硬币模型E步中,省略了似然函数,省略了Q函数,直接求出了更新参数值,实际上你如果按照Q函数去求就是这个结果,这里省略了这个步骤。
  • μi+1\mu ^{i+1}代表第ii 个观测样本yiy_i是来自硬币B的概率 求 μi+1=硬币来自B硬币来自B+硬币不来自B(来自C\mu ^{i+1} =\frac {硬币来自B} {硬币来自B+硬币不来自B(来自C)} , 我们认为这个等式屏直觉直接可以写出,实际上通过最大似然函数或者最大Q函数 也会得到这个。
  • EM算法收敛性可以用琴生不等式证明,挺复杂,略。主要要了解EM算法思想

高斯混合模型(GMM)

常用聚类模型

要点

  • 有一堆要聚类的数据,假设每一类服从某种高斯分布,要求出各自高斯分布参数。但是对于一个样本不知道它属于哪一个类别,样本属于的类别就是一个变量,我们无法知道,就叫做隐变量
  • GMM也是含有隐变量的求最大似然函数问题,用 EM算法求解。