似然似然（Likelihood）似然函数表示在已知观测数据 D 的情况下，参数 \theta 的“合理程度”。

似然

似然（Likelihood）

定义：

似然函数表示在已知观测数据 $D$ 的情况下，参数 $\theta$ 的“合理程度”：

L(\theta | D) = P(D | \theta)

与概率的区别：

概率 (Probability)：参数 $\theta$ 固定，数据是随机变量；
似然 (Likelihood)：数据 $D$ 已固定，参数 $\theta$ 是未知变量。

频率学派 (`MLE`)

频率学派中最常见的参数估计方法是 最大似然估计（Maximum Likelihood Estimation, MLE）：

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta | D)

取对数后常写为最小化 负对数似然（NLL）：

\mathcal{L}_{\text{NLL}} = - \log L(\theta | D)

观测数据： $D = \{x_1, x_2, \dots, x_n\}$
模型分布： $p_\theta(x)$
假设数据来自 真实分布 $p_{\text{data}}(x)$ （我们不知道它，只知道样本）

MLE 的目标是最大化似然：

L(\theta|D) = \prod_{i=1}^n p_\theta(x_i)

取对数方便计算：

\log L(\theta|D) = \sum_{i=1}^n \log p_\theta(x_i)

当样本数量很大时，经验平均数可以近似为期望：

\frac{1}{n} \sum_{i=1}^n \log p_\theta(x_i) \approx \mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)]

负对数似然等价于交叉熵

交叉熵定义是：

H(p, q) = - \sum_x p(x) \log q(x)

$p$ 是真实分布
$q$ 是模型分布

代入到 负对数似然（NLL）

-\mathbb{E}_{x \sim p_{\text{data}}}[\log p_\theta(x)] = - \sum_x p_{\text{data}}(x) \log p_\theta(x) = H(p_{\text{data}}, p_\theta)

与交叉熵的定义等价。

直观理解：

对数似然越大 → 模型越能解释数据
最大化似然 ↔ 最小化负对数似然
负对数似然 ↔ 交叉熵
所以 MLE 实际上是在最小化交叉熵，信息论上就是让模型分布和真实分布尽量接近。

贝叶斯学派 (`MAP`)

贝叶斯学派认为参数本身是随机变量，有自己的 先验分布 (Prior)：

P(\theta)

观察数据后，根据贝叶斯定理更新为 后验分布 (Posterior)：

P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}

$P(D | \theta)$ → 似然，表示 $\theta$ 对数据的解释能力
$P(\theta)$ → 先验，表示我们之前对 $\theta$ 的认知
$P(\theta|D)$ → 后验，结合先验和数据更新后的认知

有了后验分布 $P(\theta|D)$ ，可以有很多方式选一个单一值作为参数估计：

后验均值（posterior mean）：
$\hat{\theta}_{\text{mean}} = E[\theta | D] = \int \theta , P(\theta|D) d\theta$
后验众数（posterior mode）(Maximum A Posteriori, MAP 估计)：
$\hat{\theta}_{\text{mode}} = \arg\max_\theta P(\theta|D)$

贝叶斯视角下，参数 $\theta$ 本身是随机变量，有先验分布 $P(\theta)$ ，计算 $\theta$ 的不确定性，直接对 $\theta$ 的分布算熵：

H(\theta) = - \int P(\theta) \log P(\theta) \, d\theta

这时熵是贝叶斯意义上的不确定性，和 Shannon 熵的频率解释不同。

`MAP` vs `MLE` 的关系

MLE（频率学派）：

在所有可能的参数 $\theta$ 里，找出能使观测数据 $D$ 的概率 $P(D\mid\theta)$ 最大的那个 $\theta$ 。
$\hat{\theta}_{MLE} = \arg\max_\theta P(D|\theta)$
MAP（贝叶斯学派）:

给定观测数据 $D$ ，哪个 $\theta$ 最可能是真的：
$\hat{\theta}_{MAP} = \arg\max_\theta P(\theta|D) = \arg\max_\theta \frac{P(D|\theta) P(\theta)}{P(D)} = \arg\max_\theta P(D|\theta) P(\theta)$
取对数并忽略常数项 $P(D)$ ：
$\hat{\theta}_{\text{MAP}} = \arg\max_\theta \log P(D|\theta) + \log P(\theta)$
所以 MAP 实际上就是在 MLE 的基础上，加上一个“先验项”

区别在于：

MLE 只看似然 $P(D|\theta)$ ，完全不考虑先验
MAP 看 似然 × 先验 $P(D|\theta) P(\theta)$ ，所以如果有先验知识，它会“拉动”估计结果偏向先验。

Example

假设：

硬币正面概率 $\theta$
数据：抛 1 次，正面
先验： $\theta$ 大概率接近 0.5

MLE：

\hat{θ}_{MLE} = 1

因为看到一次正面，最大似然认为 $\theta = 1$ 。

MAP：

结合先验 $\theta \approx 0.5$ ，MAP 不会直接选 1，而可能选 0.6-0.7，更“合理”，因为它平衡了数据和先验。

在 信息论 中，熵 $H(p)$ 衡量不确定性：

H(p) = - \mathbb{E}_{x \sim p}[\log p(x)]

在 频率学派 框架下，最小化负对数似然（即最小化交叉熵）相当于让模型分布 $p_{\theta}$ 逼近真实分布 $p_{\text{data}}$ ；
在 贝叶斯框架 下，熵 $H(\theta)$ 衡量参数分布 $P(\theta)$ 的不确定性。

似然

似然

似然（Likelihood）

频率学派 (MLE)

负对数似然 等价于 交叉熵

贝叶斯学派 (MAP)

MAP vs MLE 的关系

频率学派 (`MLE`)

负对数似然等价于交叉熵

贝叶斯学派 (`MAP`)

`MAP` vs `MLE` 的关系