16-17（1.2 概率论）模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有限大小产生的。概率论

现在假设我们随机选取一个盒子，结果是蓝色的盒子。然后，选择一个苹果的概率就是蓝色盒子中苹果的分数，即 $3/4$ ，因此 $p(F=a|B=b)=3/4$ 。事实上，我们可以写出水果类型的所有四个条件概率，给定所选盒子

p(F=a|B=r)=1/4\tag{1.16}

p(F=o|B=r)=3/4\tag{1.17}

p(F=a|B=b)=3/4\tag{1.18}

p(F=o|B=b)=1/4\tag{1.19}

再次注意，这些概率是标准化的，因此

p(F=a|B=r)+p(F=o|B=r)=1\tag{1.20}

同样的

p(F=a|B=b)+p(F=o|B=b)=1\tag{1.21}

我们现在可以使用概率的和积规则来评估选择苹果的总体概率

p(F=a)=p(F=a|B=r)p(B=r)+p(F=a|B=b)p(B=b)=\frac{1}{4}\times\frac{4}{10}+\frac{3}{4}\times\frac{6}{10}=\frac{11}{20}\tag{1.22}

由此，使用求和规则， $p(F=o)=1-11/20=9/20$ 。

相反，假设我们被告知选择了一块水果，它是一个桔子，我们想知道它来自哪个盒子。这要求我们评估以水果身份为条件的盒子上的概率分布，而（1.16）（1.19）中的概率给出了以盒子身份为条件的水果上的概率分布。利用贝叶斯定理，我么可以解决条件概率的反问题

p(B=r|F=o)=\frac{p(F=o|B=r)p(B=r)}{p(F=o)}=\frac{3}{4}\times\frac{4}{10}\times\frac{20}{9}=\frac{2}{3}\tag{1.23}

根据求和规则， $p(B=b|f=o)=1-2/3=1/3$ 。

我们可以对贝叶斯定理进行如下重要解释。如果我们在被告知所选水果的身份之前被问到选择了哪个盒子，那么我们所能得到的最完整信息就是概率 $p(B)$ 。我们称之为先验概率，因为它是在我们观察水果的特性之前可用的概率。一旦我们被告知水果是桔子，我们就可以使用贝叶斯定理来计算概率 $p(B|F)$ ，我们将其称为后验概率，因为它是在我们观察到 $F$ 之后得到的概率。请注意，在本例中，选择红色盒子的先验概率为 $4/10$ ，因此我们更可能选择蓝色盒子而不是红色盒子。然而，一旦我们观察到所选水果时桔子，我们发现红色盒子的后验概率现在是 $2/3$ ，因此我们现在更可能选择的盒子实际上是红色的。这一结果符合我们的直觉，因为红色盒子里的桔子比例比蓝盒子里的高很多，因此观察到的水果时桔子提供了支持红盒子的重要证据。事实上，证据足够有力，超过了先前的证据，使得选择红色盒子而不是蓝色盒子的可能性更大。

最后，我们注意到，如果两个变量的联合分布分解成边缘的乘积，使得 $p(X,Y)=p(x)p(Y)$ ，那么 $X$ 和 $Y$ 称为独立的。从乘积规则中，我们看到 $p(Y|X)=p(Y)$ ，因此给定 $X$ 的 $Y$ 的条件分布确实与 $X$ 的值无关。例如，在我们的水果盒示例中，如果每个盒子包含相同比例的苹果和橙子，那么 $p(F|B)=p(F)$ ，因此选择（比如）苹果的概率与选择哪个盒子无关。