极大似然简介

527 阅读2分钟
原文链接: zhuanlan.zhihu.com

极大似然法的思想始于高斯的误差理论,在各种估计方法中较为优良,它属于频率学派的点估计法的一种

频率学派的参数估计方法

频率学派的参数估计方法,不管是矩估计,极大似然法,区间估计或者其他方法,在抽取样本之前对参数 \theta 没有任何了解

这里和 贝叶斯方法 区别一下:Bayesian的基本观点是在抽取样本之前,就对参数 \theta 有了一定的知识,叫做先验知识。这是Bayesian和frequentist的主要区别。贝叶斯统计学对先验信息收集挖掘和加工,使其数量化,形成先验分布,根据贝叶斯公式得到后验分布。得出了后验分布以后,对参数 \theta任何统计推断,都只能基于这个后验分布

点估计是什么

设从总体中抽出的样本 x_1,\dots,x_n, 假设总体的参数为 \theta , 根据这些样本去对参数 \theta 作出估计,可以构造适当的统计量 \hat \theta = \hat \theta(x_1,\dots,x_n) ,每当有了样本,就代入函数 \hat \theta(x_1,\dots,x_n) 算出一个值作为 \theta 的估计值。

由于未知参数 \theta 是数轴上的一个点,用 \hat \theta 去估计 \theta 相当于用一个点去估计另一个点,这样的估计就叫点估计,区别于区间估计。

极大似然是什么

设总体分布为 f(X;\theta)x_1,\dots,x_n 是从总体分布中抽出的样本, 那么样本(x_1,\dots,x_n)的联合分布为: L(x_1,x_2,\dots,x_n;\theta)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)

当固定 \theta 时,看作是 x_1,\dots,x_n 的函数时,L是一个概率密度函数。

当固定 x_1,\dots,x_n 时, 把 L 看作是 \theta 的函数,由于 \theta 有一定的值,但是未知,并非随机变量(频率学派观点),不能叫做概率,而叫做似然(likelihood)。

使得likelihood最大的那个点记为:

\theta^*= argmax L(x_1,\dots,x_n;\theta)

并将其并作为 \theta 的估计值,在已有的样本 x_1,\dots,x_n 条件下, \theta^* 就叫做 \theta极大似然估计

由于

\log L = \sum_{i=1}^n \log f(x_i;\theta)

且为了使得L最大,只须使得log L 最大,故在f对 \theta 存在连续偏导数时,可以建立方程:

\frac{\partial \log L}{\partial \theta} = 0

如果有多个参数就联立方程组:

\frac{\partial \log L}{\partial \theta_i} = 0,i=1,\dots,k

如果这个方程组有唯一的解,且有能验证它是一个极大值点,那么它必定是使L达到最大的点,即极大似然估计

复杂的场合,方程组不止一个解,求出这些解耗费计算,并且不易判定哪个使L最大。

有时 f 并不一定对 \theta 可导,甚至 f 本身也不连续,那么方程组无用,要回到原始定义

\theta^*= argmax L(x_1,\dots,x_n;\theta)

局限

极大似然法的要求分布有参数形式

极大似然法在数据比较少的时候容易overfit