12 最大熵模型

在本章中，我们介绍并讨论最大熵模型，也被称为Maxent模型，一个广泛使用的密度估计算法家族，可以利用丰富的特征集。首先介绍了标准密度估计问题，并简要描述了最大似然解和最大后验解。接下来，我们描述了一个更丰富的密度估计问题，其中学习者还可以访问特征。这就是Maxent模型所解决的问题。

介绍了马克森模型背后的关键原理，并给出了它们的原始优化问题。接下来，我们证明了一个对偶定理，证明了极大模型与正则化极大似然问题的吉布斯分布解一致。我们给出了这些模型的泛化保证，并给出了一种利用坐标下降技术求解其对偶优化问题的算法。我们进一步将这些模型扩展到任意布雷格曼散度与其他范数一起使用的情况，并证明了一个一般的对偶定理，导致了一个具有替代正则化的等价优化问题。我们还给出了常用的Maxent模型进行了具体的理论分析。

12.1 密度估计问题

设 $S=\big(x_{_1},\dots,x_{_m}\big)$ 是一个未知分布的大小为i.i.d.的样本 $\mathcal D$ . 然后，密度估计问题包括使用该样本从一个可能的分布p族中选择一个接近的分布 $\mathcal D$ .

$\mathcal P$ 的选择是至关重要的。一个相对较小的家族可能不包含 $\mathcal D$ ，甚至不包含任何接近D的分布。另一方面，如果只有一个由大量参数定义的样本的非常丰富的家族，可能会使选择p的任务变得非常困难。

12.1 最大似然值(ML)解决方案

选择分布p的一个常见解是基于最大似然原理。这包括从家族 $\mathcal P$ 中选择一个分布，为观察到的样本 $\mathcal S$ 分配最大的概率。因此，利用样本被抽取的i.i.d.事实，将最大似然选择的解 $\mathcal p_{_\text{ML}}$ 定义为：

\mathcal {_\text{ML}}

最大似然原理可以用相对熵等价地表示。设 $\hat\mathcal D$ 表示样本 $S$ 对应的经验分布，然后， $\mathcal p_{_\text{ML}}$ 与经验分布 $\hat\mathcal D$ 允许的相对熵最小的分布p一致：

\mathcal p{_\text{ML}}

这可以从以下内容中直接看出：

\mathcal {_\text{ML}}

自最后一个表达式的第一项以来，经验分布的负熵不随p而变化。

作为应用最大似然原理的一个例子，假设我们希望从一个i.i.d.中估计一个硬币的偏差 $\mathcal p_{_\text{0}}$ 样本 $S=\big(x_{_1},\dots,x_{_m}\big)$ ，其中 $x_{_\mathcal i}{∈}$ {h,t} ，h表示头和t尾。 $\mathcal p_{_\text{0}}{∈[0,1]}$ 是根据未知分布 $\mathcal D$ 得到h的概率。设 $\mathcal P$ 为所有分布p $\mathcal =(p,1-p)$ ，其中 $\mathcal p{∈[0,1]}$ 是任意可能的偏差值。设 $\mathcal n_{_\text{h}}$ 表示h在 $S$ 中出现的次数，然后，选择p $\mathcal =(p,1-p)$ ，其中 $\mathcal p{∈[0,1]}$ 导致D(bDkp)=0，通过（12.2），显示pML=bD。因此，偏差的最大似然估计pML是经验值

12.2之前还有很大一段没有翻译

12.1.2 最大存储池(MAP)解决方案

另一种基于所谓的最大序列解决方案的解决方案包括选择一个最有可能的分布P $\mathcal {∈P}$ ，给定观察到的样本S和分布P $\mathcal {∈P}$ 上的先验P[p]。根据贝叶斯规则，这个问题可以表述如下：