似然
似然(Likelihood)
定义:
似然函数表示在已知观测数据 D 的情况下,参数 θ 的“合理程度”:
L(θ∣D)=P(D∣θ)
与概率的区别:
- 概率 (Probability):参数 θ 固定,数据是随机变量;
- 似然 (Likelihood):数据 D 已固定,参数 θ 是未知变量。
频率学派 (MLE)
频率学派中最常见的参数估计方法是 最大似然估计(Maximum Likelihood Estimation, MLE):
θ^MLE=argθmaxL(θ∣D)
取对数后常写为最小化 负对数似然(NLL):
LNLL=−logL(θ∣D)
- 观测数据:D={x1,x2,…,xn}
- 模型分布:pθ(x)
- 假设数据来自 真实分布 pdata(x)(我们不知道它,只知道样本)
MLE 的目标是最大化似然:
L(θ∣D)=i=1∏npθ(xi)
取对数方便计算:
logL(θ∣D)=i=1∑nlogpθ(xi)
当样本数量很大时,经验平均数可以近似为期望:
n1i=1∑nlogpθ(xi)≈Ex∼pdata[logpθ(x)]
负对数似然 等价于 交叉熵
交叉熵定义是:
H(p,q)=−x∑p(x)logq(x)
代入到 负对数似然(NLL)
−Ex∼pdata[logpθ(x)]=−x∑pdata(x)logpθ(x)=H(pdata,pθ)
与交叉熵的定义等价。
直观理解:
- 对数似然越大 → 模型越能解释数据
- 最大化似然 ↔ 最小化负对数似然
- 负对数似然 ↔ 交叉熵
- 所以
MLE 实际上是在最小化交叉熵,信息论上就是让模型分布和真实分布尽量接近。
贝叶斯学派 (MAP)
贝叶斯学派认为参数本身是随机变量,有自己的 先验分布 (Prior):
观察数据后,根据贝叶斯定理更新为 后验分布 (Posterior):
P(θ∣D)=P(D)P(D∣θ)P(θ)
- P(D∣θ) → 似然,表示 θ 对数据的解释能力
- P(θ) → 先验,表示我们之前对 θ 的认知
- P(θ∣D) → 后验,结合先验和数据更新后的认知
有了后验分布 P(θ∣D),可以有很多方式选一个单一值作为参数估计:
-
后验均值(posterior mean):
θ^mean=E[θ∣D]=∫θ,P(θ∣D)dθ
-
后验众数(posterior mode)(Maximum A Posteriori, MAP 估计):
θ^mode=argθmaxP(θ∣D)
贝叶斯视角下,参数 θ 本身是随机变量,有先验分布P(θ), 计算 θ 的不确定性,直接对 θ 的分布算熵:
H(θ)=−∫P(θ)logP(θ)dθ
这时熵是贝叶斯意义上的不确定性,和 Shannon 熵的频率解释不同。
MAP vs MLE 的关系
-
MLE(频率学派):
在所有可能的参数 θ 里,找出能使观测数据 D 的概率 P(D∣θ) 最大的那个 θ。
θ^MLE=argθmaxP(D∣θ)
-
MAP(贝叶斯学派):
给定观测数据 D ,哪个 θ 最可能是真的:
θ^MAP=argθmaxP(θ∣D)=argθmaxP(D)P(D∣θ)P(θ)=argθmaxP(D∣θ)P(θ)
取对数并忽略常数项 P(D):
θ^MAP=argθmaxlogP(D∣θ)+logP(θ)
所以 MAP 实际上就是在 MLE 的基础上,加上一个“先验项”
区别在于:
MLE 只看似然 P(D∣θ),完全不考虑先验
MAP 看 似然 × 先验 P(D∣θ)P(θ),所以如果有先验知识,它会“拉动”估计结果偏向先验。
Example
假设:
- 硬币正面概率 θ
- 数据:抛 1 次,正面
- 先验: θ 大概率接近 0.5
MLE:
θ^MLE=1
因为看到一次正面,最大似然认为 θ=1。
MAP:
- 结合先验 θ≈0.5,
MAP 不会直接选 1,而可能选 0.6-0.7,更“合理”,因为它平衡了数据和先验。
在 信息论 中,熵 H(p) 衡量不确定性:
H(p)=−Ex∼p[logp(x)]
- 在 频率学派 框架下,最小化负对数似然(即最小化交叉熵)相当于让模型分布 pθ 逼近真实分布 pdata;
- 在 贝叶斯框架 下,熵 H(θ) 衡量参数分布 P(θ) 的不确定性。