估计方法、最大似然估计以及统计学中的一些重要概念 | Fundamentals of Statistics

376 阅读6分钟

系列文章目录

null


Measures of Distance Between Probability Distributions的学习大纲

@TOC


1:简介

在前面的示例中,估计是一个相对简单的任务。例如,在“亲吻”的例子中,我们通过比例估计了概率。这些方法在很大程度上都是自然而然的,也是由大数定律所证明的。此外,还存在一些系统性的方法,可以产生比自然估计方法更好的估计量。

2:最大似然估计的引入

在这一单元中,我们将会学习一个非常强大的方法,即最大似然估计。它可以通过估计候选分布与生成数据的分布之间的距离来导出。特别地,我们将会关注概率分布之间的Kullback-Leibler散度作为距离的度量,从而了解如何推导出最大似然估计量。由于这是一个最大化问题,我们需要了解如何最大化一个函数。同时,我们还将复习一些分析和微积分的重要概念,如凸函数和凹函数、梯度以及海森矩阵。

3:最大似然估计的特点

最大似然估计器的特别之处在于,即使在不知道其精确形式的情况下,我们也可以研究其统计性质,包括置信区间。通常情况下,这是最佳的估计方法,在这个意义上,它是统计学中最重要的估计方法之一。尽管它通常是最佳方法,但最大似然估计也存在一些限制,比如在计算上的复杂性或对部分受损数据的鲁棒性不足。

4:其他估计方法的比较

我们还将学习其他流行的方法,例如矩估计法和更一般的M-估计法,并将它们与最大似然估计进行比较。

5:课程目标

在本单元的结尾,你将能够为复杂的统计模型计算估计值,即使在没有明显自然估计方法的情况下,也能以统一的方式理解它们的统计性质。


统计学高级课程考试 总分:100分

这个考试涵盖了从基础概念到高级应用的广泛内容

题目一:基础概念和最大似然估计 (20分)

  1. 详细解释大数定律是什么,以及它与估计方法之间的关系。
  2. 什么是最大似然估计?从数学的角度解释它的基本原理,并说明如何通过最大似然估计得到参数的值。
  3. 介绍Kullback-Leibler散度是什么,以及它在最大似然估计中的作用。

题目二:最优化和分析概念 (25分)

  1. 解释函数的凸性和凹性。如何通过二阶导数来判断一个函数是凸函数还是凹函数?
  2. 什么是梯度和海森矩阵?在最大似然估计中,为什么对于最大化函数来说,梯度和海森矩阵是重要的?
  3. 如果你需要最大化一个非凸函数,你会采取什么策略?请描述可能的方法并解释其原理。

题目三:最大似然估计的应用和局限性 (30分)

  1. 最大似然估计为什么在统计学中如此重要?举例说明它在哪些实际问题中的应用。
  2. 什么是置信区间?最大似然估计如何帮助计算置信区间,即使我们不知道估计量的精确分布?
  3. 最大似然估计有哪些局限性?讨论计算复杂性和数据鲁棒性方面可能出现的问题,并提出应对策略。

题目四:估计方法比较与综合应用 (25分)

  1. 简要比较最大似然估计、矩估计法和M-估计法。根据应用场景,列举适用于每种方法的情况。
  2. 在没有明显自然估计方法的情况下,为什么最大似然估计在复杂统计模型中仍然有用?举例说明一个这样的复杂模型,并解释如何应用最大似然估计。

先修课程:

  1. 概率分布简介:了解基本的概率分布类型和其属性。
  2. 信息论基础:介绍熵和相对熵的概念。
  3. 极大似然估计基础:理解如何使用极大似然估计来估计参数。

主要课程:

  1. Total Variation Distance 简介:讲解Total Variation Distance的定义和性质。
  2. Kullback-Leibler (KL) divergence 简介:介绍KL divergence的定义、性质和计算方法。
  3. 两种分布之间的Total Variation Distance和KL divergence的计算。
  4. 使用KL divergence推导出的最大似然原理。
  5. 离散分布的似然性定义和计算。

主要课程

首先,我们将探讨 Total Variation Distance

Total Variation Distance (TVD) 是衡量两个概率分布之间差异的一种方法。它定义为两个概率分布的最大概率差异的一半。

具体来说,如果 PPQQ 是两个定义在相同样本空间的概率分布,则它们之间的TVD定义为

TVD(P,Q)=12xP(x)Q(x)TVD(P,Q)=\frac12\sum_x|P(x)-Q(x)|

这里,和是在所有可能的事件 xx 上取的。


🤔问题: 为什么我们需要除以2呢?


接下来,我们将讨论 Kullback-Leibler (KL) divergence

Kulback-Leibler (KL)散度是另一种衡量两个概率分布之间差异的方法。与Total Variatior Distance不同,KL散度不是一个对称的度量,这意味着 KL(PQ)KL(P||Q) 不等于 KL(QP)KL(Q||P)

具体来说,如果 PPQQ 是两个定义在相同样本空间的概率分布,且 Q(x)Q(x) 对所有 xx 都不天0,则 PPQQ 之间的KL散度定义为:

KL(PQ)=xP(x)log(P(x)Q(x))KL(P||Q)=\sum_xP(x)\log\left(\frac{P(x)}{Q(x)}\right)

其中,和是在所有可能的事件 xx 上取的


🤔问题: 为什么说KL散度不是一个对称的度量?


现在,我们将使用KL散度推导 最大似然原理

最大似然原理是估计概率模型参数的一种方法。基本思想是找到一组参数,使得观察到的数据出现的可能性最大。

考虑一个参数为 θ\theta 的概率分布 PθP_{\theta} 和一个固定的数据分布 QQ 。我们可以使用KL散度来衡量这两个分布之间的差异:

KL(QPθ)=xQ(x)log(Q(x)Pθ(x))KL(Q||P_\theta)=\sum_xQ(x)\log\left(\frac{Q(x)}{P_\theta(x)}\right)

为了找到最佳的 θ\theta ,我们可以尝试最小化上述KL散度。

但是,由于 Q(x)Q(x) 是固定的数据分布,因此它不依赖于 θ\theta 。因此,最小化KL散度与最大化以下的似然函数是等价的:

L(θ)=xQ(x)logPθ(x)L(\theta)=\sum_xQ(x)\log P_\theta(x)

这就是最大似然估计的基础。


🤔问题: 为什么我们要最大化似然函数而不是直接最小化KL散度?


最后,我们将定义并计算一个离散分布的似然性。

对于离散分布,似然函数表示给定一组参数 θ\theta 下数据出现的可能性。具体来说,假设我们有一个数据集 DD 包含 nn 个独立观察值,这些值来自于概率分布 PθP_{\theta} 。那么,数据集 DD 的似然函数为:

L(θ;D)=i=1nPθ(xi)L(\theta;D)=\prod_{i=1}^nP_\theta(x_i)

其中, xix_{i} 是数据集中的第 ii 个观察值。

通常,为了简化计算和解释,我们会考虑似然函数的对数,称为对数似然:

logL(θ;D)=i=1nlogPθ(xi)\log L(\theta;D)=\sum_{i=1}^n\log P_\theta(x_i)

对数似然的一个主要好处是,它将似然函数中的乘积转换为了和,这在数学上更容易处理。


🤔问题: 在什么情况下,对数似然比原始的似然函数更有用?