12-13（1.2 概率论）1.2 概率论模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有

1.2 概率论

模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有限大小产生的。概率论为不确定性的量化和处理提供了一个一致的的框架，并形成了模式识别的核心基础之一。与第1.5节讨论的决策理论相结合时，它允许我们在所有可用信息的情况下做出最佳预测，即使这些信息可能不完整或不明确。

我们将通过一个简单的例子介绍概率论的基本概念。假设我们有两个盒子，一个红色和一个蓝色，在红色盒子里我们有2个苹果和6个桔子，在蓝色盒子里我们有3个苹果和1个桔子，这如图1.9所示。现在假设我们随机挑选其中一个盒子，然后从盒子中随机选择一种水果，观察它是哪种水果后，我们将放回到它来自的盒子中。我们可以想象多次重复这个过程。让我们假设这样做，我们 $40\%$ 的时间选择红色盒子， $60\%$ 的时间选择蓝色盒子，当我们从盒子里取出一个水果时，我们同样可能选择盒子里的任何一块水果。

在本例中，将选择的盒子的标识是一个随机变量，我们将用 $B$ 来表示。该随机变量可以取两个可能值中的一个，即 $r$ （对应于红色盒子）或 $b$ （对应于蓝色盒子）。同样，水果的同一性也是一个随机变量，用 $F$ 表示。它可以采用 $a$ （苹果）或 $o$ （桔子）中的任意一个值。

首先，我们将事件发生的概定义为事件发生的的次数占总试验次数的比例，在总实验次数无限的限制下。因此，选择红盒子的概率为 $4/10$ ，选择蓝盒子的概率为 $6/10$ 。我们将这些概率写成 $p(B=r)=4/10$ 和 $p(B=o)=6/10$ 。注意，根据定义，概率必须在区间 $[0,1]$ 内。此外，如果事件是互斥的，并且如果它们包括所有可能的结果（例如，在本例中，盒子必须是红色或蓝色），那么我们看到这些事件的概率总和必须为1。

Figure 1.9

图 1.9 我们用一个简单的例子来介绍概率的基本概念，即两个颜色的盒子，每个盒子里都有水果（苹果显示为绿色，桔子显示为橙色）。

Figure 1.10

图 1.10 我们可以通过考虑两个随机变量 $X$ 来推导概率的和积规律， $X$ 取值 $\{x_i\}$ ，其中 $i=1,...,M$ ， $Y$ 取值 $\{y_i\}$ ，其中 $j=1,..,L$ ，在这个图解中，我们有 $m=5$ 和 $L=3$ 。如果我们考虑这些变量的示例总数 $n$ ，则我们表示 $X=x_i$ 和 $Y=y_j$ 的 $n_{ij}$ 示例数，这是数组对应单元格中的点数。列 $i$ 中的点的数目，对应于 $X=x_i$ ，由 $c_i$ 表示，并且 $j$ 行中的点的数量，对应于 $Y=y_j$ ，由 $R_j$ 表示。

我们现在可以问这样的问题：“选择程序选择一个苹果的总概率是多少？”或者“如果我们选择了一个桔子，那么我们选择的盒子是蓝色的概率是多少？”。一旦我们掌握了概率的这两个基本规则，即综合规则和乘积规则，我们就可以回答这样的问题，甚至可以回答与模式识别问题相关的更复杂的问题。获得这些规则后，我们将回到我们的水果盒示例。

为了推导概率的规则，考虑图1.10中涉及两个随机变量 $X$ 和 $Y$ 的更一般的例子（例如，可以是上面提到的方块和水果变量）。我们假设 $X$ 可以取任意一个值 $x_i$ ，其中 $i=1,...,M$ ， $Y$ 可以取值 $y_j$ ，其中 $j=1,...,L$ 考虑总的 $N$ 个试验，我们对变量 $X$ 和 $Y$ 进行取样，并让 $X=x_i$ 和 $Y=y_j$ 为 $n_{ij}$ 这样的试验的数目。同样让 $X$ 取值 $x_i$ （与 $Y$ 值无关）的试验次数用 $c_i$ 来表示，同样，让 $Y$ 取值 $y_j$ 的试验次数用 $r_j$ 来表示。

$X$ 取值 $x_i$ 和 $Y$ 取值 $y_j$ 的概率取 $(X=x_i,Y=y_j)$ 的值，称为 $X=x_i$ 和 $Y=y_j$ 的联合概率。它由落在单元格 $i,j$ 中的点数作为点数总数的一部分给出，因此

p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}

这里我们隐式的考虑极限 $N\rightarrow\infty$ 。类似的，不管 $Y$ 的取值如何， $X$ 的取值 $x_i$ 的概率写为 $p(X=x_i)$ ，并由第 $i$ 列中总点数的分数给出，因此

p(X=x_i)=\frac{c_i}{N}\tag{1.6}

因为图1.10中第 $i$ 列中的示例数只是该列每个单元中实例数的总和，所以我们有 $c_i=\sum_{j}n_{ij}$ ，因此从（1.5）和（1.6）中，我们有

p(X=x_i)=\sum_{j=1}^{L}p(X=x_i,Y=y_j)\tag{1.7}

这是概率的求和规则。注意， $p(X=x_i)$ 有时被称为边缘概率，因为它是通过边缘化或求和其他变量（在本例中为 $Y$ ）得到的。