14-15（1.2 概率论）模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有限大小产生的。概率论

如果我们只考虑 $X=x_i$ 的实例，则这样的实例分分数为 $Y=y_j$ 写成 $p(Y=y_j|X=x_i)$ ，并称为 $Y=y_j$ 给定 $X=x_i$ 的条件概率。它是通过查找列 $i$ 中落在单元格 $i,j$ 中的点的分数获得的，因此下式给出

p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}\tag{1.8}

从（1.5）、（1.6）和（1.8）中，我们可以得出以下关系

p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}=\frac{n_{ij}}{c_i}\cdot\frac{c_i}{N} =p(Y=y_j|X=x_i)p(X=x_i)\tag{1.9}

这是概率的乘积法则。

到目前为止，我们已经非常小心地区分了随机变量，例如水果示例中的盒子 $B$ ，以及随机变量可以采用的值，例如如果盒子是红色的，则是 $R$ 。因此， $B$ 取 $R$ 的概率表示为 $p(B=r)$ 。虽然这有助于避免歧义，但它会导致一种相当麻烦的符号，在许多情况下，不需要这种迂腐。相反，我们可以简单地写 $p(B)$ 来表示随机变量 $B$ 上的分布，或 $P(r)$ 来表示为特定值 $r$ 计算的分布，前提是上下文中的解释是清楚的。

有了这个更紧凑的符号，我们可以用下面的形式写出概率论的两条基本规则。

概率法则

加法规则
$p(X)=\sum_{Y}p(X,Y)\tag{1.10}$
乘法规则
$p(X,Y)=p(Y|X)p(X)\tag{1.11}$

这里 $p(X,Y)$ 是一个联合概率，用“X和Y的概率”表示。类似的，数量 $p(Y|X)$ 是一个条件概率，表示为“给定X的Y的概率”，而数量 $p(X)$ 是一个边缘概率，只是“ $X$ 的概率”。这两条简单的规则构成了我们在本书中使用的所有概率机制的基础。

从乘积规则，再加上对称性质 $p(X,Y)=p(Y,X)$ ，我们立即得到条件概率之间的以下关系

P(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}

它被称为贝叶斯定理，在模式识别和机器学习中起着核心作用。使用求和规则，贝叶斯定理中的分母可以用分子中出现的量来表示

p(X)=\sum_{Y}p(X|Y)p(Y)\tag{1.13}

我们可以将贝叶斯定理中的分母视为标准化常数，以确保（1.12）左侧的条件概率之和在 $Y$ 的所有值上等于 1。

在图1.11中我们展示了一个简单的例子，涉及两个变量的联合分布，以说明边缘分布和条件分布的概念。此处，从节理分布中提取了 $N=60$ 个数据点的有限样本，如左上角所示。右上角是两个 $Y$ 值各有一个的数据点分数的直方图。根据概率的定义，这些分数等于极限 $N$ 中相应的概率 $p(Y)\rightarrow\infty$ 。我们可以将柱状图视为一种简单的建模概率分布的方法，只要从该分部中提取有限数量的点。从数据建模分布是统计模式识别的核心，本书将详细讨论。图1.11中剩下的两个图显示了 $p(X)$ 和 $p(X|Y=1)$ 的相应直方图估计。

现在让我们回到我们的例子，涉及到水果盒。目前，我们将再次明确区分随机变量及其实例化。我们已经看到，选择红色或蓝色盒子的概率由

p(B=r)=4/10\tag{1.14}

p(B=b)=6/10\tag{1.15}

分别给出。注意，这些满足 $p(B=r)+p(B=b)=1$ 。

Figure 1.11

图 1.11 两个变量的分布图， $X$ 取9个可能值， $Y$ 取两个可能值。左上图显示了从这些变量的联合概率分布中得出的60个点的样本。其余的图显示了边缘分布 $p(X)$ 和 $p(Y)$ 的直方图估计，以及与左上角图中底行对应的条件分布 $p(X|Y=1)$ 。