21-22（1.2.3 贝叶斯概率）到目前为止，在本章中，我们已经从随机、可重复事件的频率角度来看待概率。我们将把它称为

1.2.3 贝叶斯概率

到目前为止，在本章中，我们已经从随机、可重复事件的频率角度来看待概率。我们将把它称为概率的经典或常客解释。现在我们转向更一般的贝叶斯观点，其中概率提供了不确定性的量化。

考虑一个不确定的事件，例如月球是否曾经绕着它自己的轨道绕太阳运行，或北极冰盖是否在本世纪末消失。这些事情不能像我们之前在水果盒的上下文中所做的那样，为了定义概率的概率而重复多次。然而，我们通常会有一些想法，例如，我们认为极地冰融化的速度有多快。如果我们现在获得新的证据，例如从一颗新的地球观测卫星收集新形式的诊断信息，我们可能会修正我们对冰损失率的看法。我们对这些问题的评估将影响我们采取的行动，例如我们努力减少温室气体排放的程度。在这种情况下，我们希望能够量化我们对不确定性的表达，并根据新证据对不确定性进行精确修正，以及随后能够采取最佳行动或决策。这一切都可以通过优雅的、非常普遍的概率贝叶斯解释来实现。

然而，用概率来表示不确定性并不是一种特别的选择，而是不可避免的，如果我们在做出理性连贯的推论时尊重常识的话。例如，Cox（1946）表明，如果用数值来表示置信度，那么编码这些信念的常识属性的一组简单公理将唯一地导致一组操作置信度的规则，这些规则等价于概率的和与积的规则。这提供了第一个严格的证据，证明概率论可以被视为布尔逻辑在涉及不确定性的情况下的扩展。许多其他作者提出了这些不确定性度量应该满足的不同属性或公里集。在每种情况下，得到的数量值都精确地符合概率规则。因此，将这些数量称为（贝叶斯）概率是很自然的。

在模式识别领域，对概率有一个更一般的定义也是有帮助的。考虑在第1.1节中讨论的多项式曲线拟合的例子。对观测变量 $t_n$ 的随机值应用频率论的概率概念似乎是合理的。然而，我们希望解决并量化围绕模型参数 $w$ 的适当选择的不确定性。我们将看到，从贝叶斯的角度来看，我们可以使用概率论的机制来描述模型参数中的不确定性，例如 $w$ 或模型本身的选择。

贝叶斯定理现在有了新的意义。回想一下，在水果盒子的例子中，对水果身份的观察提供了相关信息，改变了所选盒子是红色盒子的可能性。在这个例子中，贝叶斯定理被用来通过合并观测数据提供的证据将先验概率转换为后验概率。正如我们将在后面详细看到的，我们可以在多项式曲线拟合示例中对参数 $w$ 等数量进行推断时采用近似方法。在观察数据之前，我们可以先验概率分布 $p(w)$ 的形式捕获我们关于 $w$ 的假设。观测数据的影响 $D=\{t_1,...,t_N\}$ 通过条件概率 $p(D|w)$ 表示，我们将在后面的第1.2.5节中看到如果显式表示。贝叶斯定理，其形式为

p(w|D)=\frac{p(D|w)p(w)}{p(D)}\tag{1.43}

然后我们允许我们在以后验概率 $p(w|D)$ 的形式观察 $D$ 后，评估 $w$ 中的不确定度。

贝叶斯定理右侧的数量 $p(D|w)$ 是针对观测数据集 $D$ 进行计算的，可以视为参数向量 $w$ 的函数，在这种情况下称为似然函数。它表示对于参数向量 $w$ 的不同设置，观测数据集的可能性。请注意，似然不是 $w$ 上的概率分布，其相对于 $w$ 的积分（不一定）等于1。

给出这种可能性的定义，我们可以用文字表述贝叶斯定理

posterior∝likelibood \times prior\tag{1.44}

其中，所有这些量均视为 $w$ 的函数。（1.43）中的分母是归一化常数，它确保左侧的后验分布是一个有效的概率密度，并积分为一。实际上，积分（1.43）关于 $w$ 的两边，我们可以用先验分布和似然函数来表示贝叶斯定理中的分母

p(D)=\int p(D|w)p(w)dw\tag{1.45}

在贝叶斯范式和频率范式中，似然函数 $p(D|w)$ 起着核心作用。然而，在这两种方法中，它的使用方式是根本不同的。在频率设置中， $w$ 被认为是一个固定参数，其值由某种形式的“估计值”确定，该估计的误差条是通过考虑可能数据集 $D$ 的分布而获得的。相比之下，从贝叶斯观点来看，只有一个数据集 $D$ （即实际观察到的数据集），参数中的不确定性通过 $w$ 上的概率分布表示。