[机器学习] MLE(极大似然估计)、MAP(最大后验估计)、Bayesian贝叶斯估计

1,019 阅读5分钟

本文已参与[新人创作礼]活动,一起开启掘金创作之路。

参考:机器学习中的MLE、MAP、贝叶斯估计 - 知乎

参考:EM算法详解_萌萌的It人 www.itmmd.com-CSDN博客

参考:详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解_nebulaf91的博客-CSDN博客_最大后验估计

注:map降低方差。相当于引入theta参数先验的正则。

目录

总结

一、MLE (极大似然估计: 已知分布类型,求最优参数估计)

1.1 硬币的例子

二、MAP (最大后验估计)

三、Bayesian(所有样本的加权平均,作为预测值)

四、随着我们观测到越来越多的数据,MAP 趋向于 MLE


总结

​​

一、MLE (极大似然估计: 已知分布类型,求最优参数估计)

参考:从最大似然函数 到 EM算法详解 - 影醉阏轩窗 - 博客园

假设数据符合某种分布G(theta),根据样本数据集X,求使得联合概率密度分布最大(使得预测分布更接近经验分布)的最优参数估计 argmax_theta P(theta|D) / argmax_theta P(X|theta) / argmax_theta P(X,theta)

MLP用来求模型参数的,核心就是“模型已知,求取参数”,模型的意思就是数据符合什么分布。 

argmax_theta L(D , theta)  = argmax_theta L(theta|D) 

f(X|μ,σ2)的联合概率最大,这就是极大似然估计,常用L(μ,σ2|X)表示。

image​​

image​​

​​

​​

1.1 硬币的例子

抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。

但有些人会质疑,硬币一般都是均匀的啊! 就算你做实验发现结果是“反正正正正反正正正反”,我也不信θ = 0.7 。

这里就包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计MAP。

二、MAP (最大后验估计)

MLE最大似然估计 是求参数 θ , 使似然函数P(x_0|\theta )​最大 。  

MAP最大后验概率估计 则是想求 \theta​ , 使 P(x_0|\theta )*P(\theta )​ 最大(考虑了先验、后验) 。

求得的 \theta​ 不单单让似然函数 P​ 大,也让 \theta​ 自己出现的先验概率也得大。(这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)
后验概率分布,最大值,θ=0.7。

考虑先验时,函数取最大值时,θ 取值已向左偏移,不再是0.7。实际上,在θ = 0.558 时函数取得了最大后验概率估计,得到θ = 0.558。

最后,那要怎样才能说服一个贝叶斯派相信 θ = 0.7 呢?你得多做点实验。

如果做了1000次实验,其中700次都是正面向上,这时似然函数为:

如果仍然假设 P(θ) 为均值0.5,方差0.1的高斯函数,P(x0∣θ)P(θ)的函数图像为:

在θ = 0.696 处,P(x0|θ)*P(θ) 取得最大值。

这样,就算一个考虑了先验概率的贝叶斯派,也不得不承认得把 θ 估计在 0.7 附近了。

PS.要是遇上了顽固的贝叶斯派,认为P ( θ = 0.5 ) =1 ,那就没得玩了。。 无论怎么做实验,使用MAP估计出来都是θ = 0.5。这也说明,一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

​​

​  

三、Bayesian(所有样本的加权平均,作为预测值)

我们把上面的这种思路应用到张三的问题上,其实相当于我们让所有计算机系的学生参与回答这个问题,之后把他们的答案进行汇总并得出最终的答案。如果我们知道每一位学生的话语权(权重),这个汇总的过程是确定性(deterministic)。 但每一位学生的话语权(权重)怎么得到呢? 估计权重分布,并 把所有样本加权平均作为预测值 ,这就是贝叶斯估计做的事情!

​​

​​

四、随着我们观测到越来越多的数据, MAP 趋向于 MLE

我们接着使用之前MAP(第二种策略)的例子。在这里,我们对原来的问题稍作改变。在之前的例子里我们假设能够得到每一位学生过去三次考试中的成绩。 但在这里,我们进一步假定可以获得每一位学生过去100次考试中的成绩。

那这样的修改会带来什么样的变化呢? 如果仔细想一想,其实也很容易想得到。我们设想一下这样的两种场景。假设我们知道某一位学生过去三次的考试成绩比较优异,但老师却告诉我们这位学生能力其实不怎么样,那这时候我们很可能就去相信老师了,毕竟仅仅通过三次考试的成绩很难对一个学生有全面的了解。但相反,假设我们了解到这位学生在过去100次考试中全部获得了班里第一名,但同时老师又告诉我们这位学生的能力其实不怎么样,那这时候我们会有什么样的反应? 两三次考试或许可以算做是运气,但连续100次都是第一名这件事情很难再跟运气画等号吧? 我们甚至可能会去怀疑老师的品德,是不是故意污蔑人家?

这就是说,当我们观测到的数据越来越多的时候,我们从数据中获取的信息的置信度是越高的,相反老师提供的反馈(Prior)的重要性就会逐渐降低。理想情况下,当我们拥有无穷多的数据样本时,MAP会逼近MLE估计,道理都是一样的。

​​

MLE,MAP 只需要相对权重选择最优秀的学生,但在贝叶斯估计模式下,我们必须要知道每一个学生的绝对权重 。

因为最后我们获得的答案是所有学生给出的答案的加权平均。

后验概率

随机变量X的概率分布为 f(x|θ),先验概率分布为 f(θ),根据贝叶斯定理,后验概率分布为 f(θ|x):

​​

  • 每一个模型定义了一个假设空间,一般假设空间都包含无穷的可行解;
  • MLE只考虑后验(由数据集D求得模型G分布的参数)不考虑先验(prior),
  • MAP和贝叶斯估计则考虑 先验P(theta) theta/权重分布为先验知识 和 后验 P(theta| D) or P(D|theta) (预测时的计算公式)  先验带权与后验结合;
  • MLE、MAP是选择相对最好的一个模型(point estimation), 贝叶斯方法则是通过观测数据来估计后验分布(posterior distribution),并通过后验分布做群体决策,所以后者的目标并不是在去选择某一个最好的模型;
  • 当样本个数无穷多的时候,MAP理论上会逼近MLE;
  • 贝叶斯估计复杂度大,通常用MCMC等近似算法来近似