似然

161 阅读1分钟

似然

似然(Likelihood)

定义:

似然函数表示在已知观测数据 DD 的情况下,参数 θ\theta 的“合理程度”:

L(θD)=P(Dθ)L(\theta | D) = P(D | \theta)

与概率的区别:

  • 概率 (Probability):参数 θ\theta 固定,数据是随机变量;
  • 似然 (Likelihood):数据 DD 已固定,参数 θ\theta 是未知变量。

频率学派 (MLE)

频率学派中最常见的参数估计方法是 最大似然估计(Maximum Likelihood Estimation, MLE

θ^MLE=argmaxθL(θD)\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta | D)

取对数后常写为最小化 负对数似然(NLL

LNLL=logL(θD)\mathcal{L}_{\text{NLL}} = - \log L(\theta | D)
  • 观测数据:D={x1,x2,,xn}D = \{x_1, x_2, \dots, x_n\}
  • 模型分布:pθ(x)p_\theta(x)
  • 假设数据来自 真实分布 pdata(x)p_{\text{data}}(x)(我们不知道它,只知道样本)

MLE 的目标是最大化似然:

L(θD)=i=1npθ(xi)L(\theta|D) = \prod_{i=1}^n p_\theta(x_i)

取对数方便计算:

logL(θD)=i=1nlogpθ(xi)\log L(\theta|D) = \sum_{i=1}^n \log p_\theta(x_i)

当样本数量很大时,经验平均数可以近似为期望:

1ni=1nlogpθ(xi)Expdata[logpθ(x)]\frac{1}{n} \sum_{i=1}^n \log p_\theta(x_i) \approx \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]
负对数似然 等价于 交叉熵

交叉熵定义是:

H(p,q)=xp(x)logq(x)H(p, q) = - \sum_x p(x) \log q(x)
  • pp 是真实分布
  • qq 是模型分布

代入到 负对数似然(NLL

Expdata[logpθ(x)]=xpdata(x)logpθ(x)=H(pdata,pθ)-\mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)] = - \sum_x p_{\text{data}}(x) \log p_\theta(x) = H(p_{\text{data}}, p_\theta)

与交叉熵的定义等价。

直观理解

  • 对数似然越大 → 模型越能解释数据
  • 最大化似然最小化负对数似然
  • 负对数似然交叉熵
  • 所以 MLE 实际上是在最小化交叉熵,信息论上就是让模型分布和真实分布尽量接近。

贝叶斯学派 (MAP)

贝叶斯学派认为参数本身是随机变量,有自己的 先验分布 (Prior)

P(θ)P(\theta)

观察数据后,根据贝叶斯定理更新为 后验分布 (Posterior)

P(θD)=P(Dθ)P(θ)P(D)P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}
  • P(Dθ)P(D | \theta)似然,表示 θ\theta 对数据的解释能力
  • P(θ)P(\theta)先验,表示我们之前对 θ\theta 的认知
  • P(θD)P(\theta|D)后验,结合先验和数据更新后的认知

有了后验分布 P(θD)P(\theta|D),可以有很多方式选一个单一值作为参数估计:

  1. 后验均值(posterior mean):

    θ^mean=E[θD]=θ,P(θD)dθ\hat{\theta}_{\text{mean}} = E[\theta | D] = \int \theta , P(\theta|D) d\theta
  2. 后验众数(posterior mode)(Maximum A Posteriori, MAP 估计):

    θ^mode=argmaxθP(θD)\hat{\theta}_{\text{mode}} = \arg\max_\theta P(\theta|D)

贝叶斯视角下,参数 θ\theta 本身是随机变量,有先验分布P(θ)P(\theta), 计算 θ\theta 的不确定性,直接对 θ\theta 的分布算熵:

H(θ)=P(θ)logP(θ)dθH(\theta) = - \int P(\theta) \log P(\theta) \, d\theta

这时熵是贝叶斯意义上的不确定性,和 Shannon 熵的频率解释不同。


MAP vs MLE 的关系

  • MLE(频率学派)

    在所有可能的参数 θ\theta 里,找出能使观测数据 DD 的概率 P(Dθ)P(D\mid\theta) 最大的那个 θ\theta

    θ^MLE=argmaxθP(Dθ)\hat{\theta}_{MLE} = \arg\max_\theta P(D|\theta)
  • MAP(贝叶斯学派):

    给定观测数据 DD ,哪个 θ\theta 最可能是真的:

    θ^MAP=argmaxθP(θD)=argmaxθP(Dθ)P(θ)P(D)=argmaxθP(Dθ)P(θ)\hat{\theta}_{MAP} = \arg\max_\theta P(\theta|D) = \arg\max_\theta \frac{P(D|\theta) P(\theta)}{P(D)} = \arg\max_\theta P(D|\theta) P(\theta)

    取对数并忽略常数项 P(D)P(D)

    θ^MAP=argmaxθlogP(Dθ)+logP(θ)\hat{\theta}_{\text{MAP}} = \arg\max_\theta \log P(D|\theta) + \log P(\theta)

    所以 MAP 实际上就是在 MLE 的基础上,加上一个“先验项”

区别在于

  • MLE 只看似然 P(Dθ)P(D|\theta),完全不考虑先验
  • MAP似然 × 先验 P(Dθ)P(θ)P(D|\theta) P(\theta),所以如果有先验知识,它会“拉动”估计结果偏向先验。

Example

假设:

  • 硬币正面概率 θ\theta
  • 数据:抛 1 次,正面
  • 先验: θ\theta 大概率接近 0.5

MLE

θ^MLE=1\hat{θ}_{MLE} = 1

因为看到一次正面,最大似然认为 θ=1\theta = 1

MAP

  • 结合先验 θ0.5\theta \approx 0.5MAP 不会直接选 1,而可能选 0.6-0.7,更“合理”,因为它平衡了数据和先验。

信息论 中,熵 H(p)H(p) 衡量不确定性:

H(p)=Exp[logp(x)]H(p) = - \mathbb{E}_{x \sim p}[\log p(x)]
  • 频率学派 框架下,最小化负对数似然(即最小化交叉熵)相当于让模型分布 pθp_{\theta} 逼近真实分布 pdatap_{\text{data}}
  • 贝叶斯框架 下,熵 H(θ)H(\theta) 衡量参数分布 P(θ)P(\theta) 的不确定性。