（Page:12-17) 1.2 概率论1.2 Probability Theory(概率论) 模式识别领域的一个关键概

1.2 Probability Theory(概率论)

模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有限大小产生的。概率论为不确定性的量化和处理提供了一个一致的框架，并形成了模式识别的核心基础之一。党羽第1.5节讨论的决策相结合时，它允许我们在所有可用信息的情况下做出最佳预测，即使这些信息可能不完整或不明确。

我们将通过一个简单的例子介绍概率论的基本概念。假设我们有两个盒子，一个红色和一个蓝色，在红色盒子里我们有2个苹果和6个桔子，在蓝色盒子里我们有3个苹果和一个桔子。这如图1.9所示。现在假设我们随机挑选其中一个盒子，然后从盒子中随机选择一种水果，观察他是哪种水果后，我们将其替换到它来自的盒子中。我们可以想象多次重复这个过程。让我们假设这样做，我们40％的时间选择红色盒子，60％的时间选择蓝色盒子，当我们从盒子里取出一个水果时，我们同样可能选择盒子里的任何一块水果。

figure 1.9 我们用一个简单的例子来介绍概率的基本概念，即两个颜色的盒子，每个盒子里都有水果（苹果显示为绿色，橙子显示为橙色）

在本例中，将选择的框的标识是一个随机变量，我们将用 $B$ 表示。该随机变量可以取两个可能值中的一个，即 $r$ （对应于红色框）或 $b$ （对应于蓝色框）。同样，水果的同一性也是一个随机变量，用 $F$ 表示。他可以采用 $a$ （苹果）或 $o$ （橙色）中的任意一个值。

首先，我们将事件发生的概率定义为事件发生的次数占总试验次数的分数，在总试验次数无限的限制下。因此，选择红色的概率为 $4/10$ ，选择蓝色框的概率为 $6/10$ 。我们将这些概率写成 $p(B=r)=4/10$ 和 $p(B=b)=6/10$ 。注意，根据定义，概率必须在区间 $[0,1]$ 内。此外，如果事件是互斥的,并且如果它们包括所有可能的结果（例如，在本例中，框必须是红色或蓝色），那么我们看到这些事件的概率总必须为1。

我们现在可以问这样的问题：”选择程序选择一个苹果的总概率是多少？“或者”如果我们选择一个橙色，那么我们选择的盒子是蓝色的概率是多少？“。一旦我们掌握了概率的两个基本规则，即总和规则和乘积规则，我们就可以回答这样的问题，甚至可以回答与模式识别问题相关的更复杂的问题。获得这些规则后，我们将回到我们的水果盒示例。

为了推导概率的规则，考虑图1.10中涉及两个随机变量 $X$ 和 $Y$ 的更一般的例子（例如，可以是上面提到的方块和水果变量）。我们假设 $X$ 可以取任意一个值 $x_i$ ，其中 $i=1,...,M$ ， $Y$ 可以取值 $y_j$ ，其中 $j=1,...,L$ 。考虑总的 $N$ 个实验，我们对变量 $X$ 和 $Y$ 进行取样，并让 $X=x_i$ 和 $Y=y_j$ 为 $n_{ij}$ 这样的实验的数目。同样，让 $X$ 取值 $x_i$ （与 $Y$ 取值无关）的实验次数用 $c_i$ 表示，同样，让 $Y$ 取值 $y_j$ 的试验次数用 $r_j$ 表示。

figure 1.10 我们可以同故宫考虑两个随机变量 $X$ 来推导概率的和积规则， $X$ 取值 $\{x_i\}$ ,其中 $i=1,...,M$ ， $Y$ 取值 $\{y_j\}$ ,其中 $j=1,...,L$ 在这个图解中，我们有 $M=5$ 和 $L=3$ 。如果我们考虑这些变量的实例的总数 $N$ ，则我们表示 $X=x_i$ 和 $Y=y_j$ 通过 $n_{ij}$ 的实例的数目，这是数组中对应单元中的点的数目。列 $i$ 中的点的数目，对应于 $X=x_i$ ，由 $c_i$ 表示，并且行 $j$ 中的点的数目，对应于 $Y=y_j$ ，由 $R_j$ 表示。

$X$ 取值 $x_i$ 和 $Y$ 取值 $y_j$ 写的 $p(X=x_i,Y=y_j)$ 的值，成为 $X=x_i$ 和 $Y=y_i$ 的联合概率。它是由在 $i,j$ 的点数作为点的总数的一部分，因此

p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}

这里我们隐式地考虑极限 $N\rightarrow \infty$ 。类似的，不管 $Y$ 的值如何， $X$ 取值 $x_i$ 的概率写为 $p(X=x_i)$ ，并由第 $i$ 列中总点数的分数给出，所以

p(X=x_i)=\frac{c_i}{N}\tag{1.6}

因为图1.10中第 $i$ 列中的实例数只是该列每个单元格中实例数的总和，所以我们有 $c_i=\sum _jn_{ij}$ ，因此从（1.5）和（1.6），我们有

p(X=x_i)=\sum^L_{j=1}p(X=x_i,Y=y_j)\tag{1.7}

这是概率的和规则。注意， $p(X=x_i)$ 有时被称为边际概率，因为他是通过边缘化或求和其他变量（在本例中为 $Y$ ）得到的。

如果我们只考虑 $X=x_i$ 的实例，则这样的实例的分数为 $Y=y_j$ 写为 $p(Y=y_j|X=x_i)$ ，并且称为 $Y=y_j$ 给定 $X=x_i$ 的条件概率。他是通过查找第 $i$ 列中属于单元格 $i,j$ 的点的分数获得的，因此由

p(X=x_i|Y=y_j)=\frac{n_{ij}}{c_i}\tag{1.8}

给出（1.5），（1.6），（1.8），然后我们可以得到以下关系

p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)\tag{1.9}

这是概率乘积法则。

到目前为止，我们已经非常小心地区分了随机变量，例如水果实例中盒子 $B$ ，以及随机变量可以采用的值，例如，如果框里是红色的，则 $r$ 。因此， $B$ 取值 $r$ 的概率表示为 $p(B=r)$ 。虽然这有助于避免歧义，但它会导致一种相当麻烦的符号，在许多情况下，不需要这种迂腐。相反，我们可以简单的写 $p(B)$ 来表示随机变量 $B$ 上的分布，或 $p(r)$ 来表示为特定值 $r$ 计算的分布，前提是上下文中的解释是清楚的。

有了这个更紧凑的符号，我们可以用下面的形式写出概率论的两条基本规则。

The Rules of Probability

求和规则 $p(X)=\sum_Yp(X,Y)$ (1.10)

乘积规则 $p(X,Y)=p(Y|X)p(X)$ (1.11)

这里 $p(X,Y)$ 是一个联合概率，用" $X$ 和 $Y$ 的概率"表示。类似的，数量 $p(Y|X)$ 是一个条件概率，表示为"给定 $X$ 的 $Y$ 的概率"，而数量 $p(X)$ 是一个边际概率，只是" $X$ 的概率"。这两条简单的规则构成了我们在本书中使用的所有概率机制的基础。

根据乘积规则，结合对称性 $p(X,Y)=p(Y,X)$ ，我们立即得到条件概率

p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}

之间的关系，成为贝叶斯定理，在模式识别和机器学习中起着核心作用。使用求和公式，贝叶斯定理中的分母可以用分子

p(X)=\sum_Yp(X|Y)p(Y)\tag{1.13}

中出现的量来表示。我们可以将贝叶斯定理中的分母视为标准化常数，以确保（1.12）左侧的条件概率与 $Y$ 的所有值之和等于1。

在图1.11中，我们展示了一个简单的例子，涉及到两个变量的联合分布，以说明边际分布和条件分布的概念。此外，从节理分布中提取了 $N=60$ 个数据点的有限样本，如左下角所示。右上角时两个 $Y$ 值各有一个的数据点分数的直方图。根据概率的定义，这些分数等于极限 $N$ 中相应的概率 $p(Y)\rightarrow \infty$ 。我们可以将柱状图视为一种简单的建模概率分布的方法，只要从该分布中提取有限数量的点。从数据建模分布是统计模式识别的核心，本书将详细探讨。图1.11中剩下的两个图显示了 $p(X)$ 和 $p(X|Y=1)$ 的相应直方图估计。

figure 1.11 两个变量的分布图， $X$ 取9个可能值， $Y$ 取两个可能值。左上图显示了从这些变量的联合概率分布中得出的60个点的样本。其余的图显示了边缘分布 $p(X)$ 和 $p(Y)$ 的直方图估计，以及与左上角图中第行对应的条件分布 $p(X|Y=1)$ 。

现在让我们回到我们的例子，涉及到水果盒。目前，我们将再次明确区分随机变量及其实例化。我们已经看到，选择红色或蓝色框的概率分别由

p(B=r)=4/10\tag{1.14}

p(B=b)=6/10\tag{1.15}

给出。注意，这些满足 $p(B=r)+p(B=b)=1$ 。

现在假设我们随机选取一个盒子，结果是蓝色的盒子。那么选择一个苹果的概率就是蓝色框中苹果的分数，是 $3/4$ 。因此 $p(F=a|B=b)=3/4$ 。事实上，我们可以写出水果类型的所有四个条件概率，再次给定所选框

p(F=a|B=r)=1/4\tag{1.16}

p(F=o|B=r)=3/4\tag{1.17}

p(F=a|B=b)=3/4\tag{1.18}

p(F=o|B=b)=1/4\tag{1.19}

注意，这些概率是标准化的，因此

p(F=a|B=r)+p(F=o|B=r)=1\tag{1.20}

和类似的

p(F=a|B=b)+p(F=o|B=b)=1\tag{1.21}

我们现在可以使用概率的和积规则来评估选择苹果的总体概率

p(F=a)=p(F=a|B=r)p(B=r)+p(F=a|B=b)p(B=b)=\frac{1}{4}\times\frac{4}{10}+\frac{3}{4}\times\frac{6}{10}=\frac{11}{20}\tag{1.22}

根据求和规则， $p(F=o)=1-11/20=9/20$ 。

相反，假设我们被告已知已选择了一块水果，它是一个橘子，我们想知道它来自哪个盒子。这要求我们评估以水果身份为条件的盒子上的概率分布，而（1.16）-（1.19）中的概率给出了以盒子身份为条件的水果上的概率分布。我们可以通过使用贝叶斯定理来解决条件概率的反转问题，给出

p(B=r|F=o)=\frac{p(F=o|B=r)p(B=r)}{p(F=o)}=\frac{3}{4}\times\frac{4}{10}\times\frac{20}{9}=\frac{2}{3}\tag{1.23}

根据求和规则， $p(B=b|F=o)=1-2/3=1/3$ 。

我们可以对贝叶斯定理进行如下重要解释。如果我们在被告知所选水果的身份之前被问到选择了哪个盒子，那么我们所能得到的最完整的信息就是概率 $p(B)$ 。我们称之为先验概率，因为它是在我们观察水果的特性之前可用的概率。一旦我们被告知水果是橘子，我们就可以使用贝叶斯定理来计算概率 $p(B|F)$ ，我们将其称为后验概率。请注意，在本例中，选择红色框的先验概率为4/10，因此我们更可能选择蓝色框而不是红色框。然而，一旦我们观察到所选的水果是橙色的，我们发现红色盒子的后验概率现在是2/3，因此我们现在更可能选择的盒子实际上是红色的。这一结果符合我们的直觉，因为红色盒子里的橙子比例比蓝色盒子里的高很多，因此观察到的水果是橙子提供了支持盒子的重要证据，是的选择红色框而不是蓝色框的可能性更大。

最后，我们注意到，如果两个变量的联合分布分解成边缘的乘积，使得 $p(X,Y)=p(X)p(Y)$ ，那么 $X$ 和 $Y$ 称为独立的。从乘积规则中，我们看到 $p(Y|X)=p(Y)$ ，因此给定 $X$ 的 $Y$ 的条件分布确实与 $X$ 的值无关。例如，在我们的水果和实例中，如果每个盒子包含相同比例的苹果和橙子，那么 $p(F|B)=P(F)$ ，因此选择(比如)苹果的概率与选择哪个盒子无关。