极大似然法的思想始于高斯的误差理论,在各种估计方法中较为优良,它属于频率学派的点估计法的一种。
频率学派的参数估计方法
频率学派的参数估计方法,不管是矩估计,极大似然法,区间估计或者其他方法,在抽取样本之前对参数 没有任何了解。
这里和 贝叶斯方法 区别一下:Bayesian的基本观点是在抽取样本之前,就对参数 有了一定的知识,叫做先验知识。这是Bayesian和frequentist的主要区别。贝叶斯统计学对先验信息收集挖掘和加工,使其数量化,形成先验分布,根据贝叶斯公式得到后验分布。得出了后验分布以后,对参数
的任何统计推断,都只能基于这个后验分布。
点估计是什么
设从总体中抽出的样本 , 假设总体的参数为
, 根据这些样本去对参数
作出估计,可以构造适当的统计量
,每当有了样本,就代入函数
算出一个值作为
的估计值。
由于未知参数 是数轴上的一个点,用
去估计
相当于用一个点去估计另一个点,这样的估计就叫点估计,区别于区间估计。
极大似然是什么
设总体分布为 ,
是从总体分布中抽出的样本, 那么样本
的联合分布为:
当固定 时,看作是
的函数时,L是一个概率密度函数。
当固定 时, 把 L 看作是
的函数,由于
有一定的值,但是未知,并非随机变量(频率学派观点),不能叫做概率,而叫做似然(likelihood)。
使得likelihood最大的那个点记为:
并将其并作为 的估计值,在已有的样本
条件下,
就叫做
的极大似然估计。
由于
且为了使得L最大,只须使得log L 最大,故在f对 存在连续偏导数时,可以建立方程:
如果有多个参数就联立方程组:
如果这个方程组有唯一的解,且有能验证它是一个极大值点,那么它必定是使L达到最大的点,即极大似然估计。
复杂的场合,方程组不止一个解,求出这些解耗费计算,并且不易判定哪个使L最大。
有时 f 并不一定对 可导,甚至 f 本身也不连续,那么方程组无用,要回到原始定义
局限
极大似然法的要求分布有参数形式。
极大似然法在数据比较少的时候容易overfit。