12-13(1.2 概率论)

206 阅读4分钟

1.2 概率论

  模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有限大小产生的。概率论为不确定性的量化和处理提供了一个一致的的框架,并形成了模式识别的核心基础之一。与第1.5节讨论的决策理论相结合时,它允许我们在所有可用信息的情况下做出最佳预测,即使这些信息可能不完整或不明确。

  我们将通过一个简单的例子介绍概率论的基本概念。假设我们有两个盒子,一个红色和一个蓝色,在红色盒子里我们有2个苹果和6个桔子,在蓝色盒子里我们有3个苹果和1个桔子,这如图1.9所示。现在假设我们随机挑选其中一个盒子,然后从盒子中随机选择一种水果,观察它是哪种水果后,我们将放回到它来自的盒子中。我们可以想象多次重复这个过程。让我们假设这样做,我们40%40\%​的时间选择红色盒子,60%60\%​的时间选择蓝色盒子,当我们从盒子里取出一个水果时,我们同样可能选择盒子里的任何一块水果。

  在本例中,将选择的盒子的标识是一个随机变量,我们将用BB​来表示。该随机变量可以取两个可能值中的一个,即rr​(对应于红色盒子)或bb​(对应于蓝色盒子)。同样,水果的同一性也是一个随机变量,用FF​表示。它可以采用aa​(苹果)或oo​​(桔子)中的任意一个值。

  首先,我们将事件发生的概定义为事件发生的的次数占总试验次数的比例,在总实验次数无限的限制下。因此,选择红盒子的概率为4/104/10​​,选择蓝盒子的概率为6/106/10​​​。我们将这些概率写成p(B=r)=4/10p(B=r)=4/10​​和p(B=o)=6/10p(B=o)=6/10​​。注意,根据定义,概率必须在区间[0,1][0,1]​​​内。此外,如果事件是互斥的,并且如果它们包括所有可能的结果(例如,在本例中,盒子必须是红色或蓝色),那么我们看到这些事件的概率总和必须为1。

Figure 1.9

图 1.9 我们用一个简单的例子来介绍概率的基本概念,即两个颜色的盒子,每个盒子里都有水果(苹果显示为绿色,桔子显示为橙色)。

Figure 1.10

图 1.10 我们可以通过考虑两个随机变量XX​来推导概率的和积规律,XX​取值{xi}\{x_i\}​,其中i=1,...,Mi=1,...,M​,YY​取值{yi}\{y_i\}​,其中j=1,..,Lj=1,..,L,在这个图解中,我们有m=5m=5L=3L=3。如果我们考虑这些变量的示例总数nn,则我们表示X=xiX=x_iY=yjY=y_jnijn_{ij}示例数,这是数组对应单元格中的点数。列ii中的点的数目,对应于X=xiX=x_i,由cic_i表示,并且jj行中的点的数量,对应于Y=yjY=y_j,由RjR_j表示。

  我们现在可以问这样的问题:“选择程序选择一个苹果的总概率是多少?”或者“如果我们选择了一个桔子,那么我们选择的盒子是蓝色的概率是多少?”。一旦我们掌握了概率的这两个基本规则,即综合规则和乘积规则 ,我们就可以回答这样的问题,甚至可以回答与模式识别问题相关的更复杂的问题。获得这些规则后,我们将回到我们的水果盒示例。

  为了推导概率的规则,考虑图1.10中涉及两个随机变量XX​​​和YY​​​的更一般的例子(例如,可以是上面提到的方块和水果变量)。我们假设XX​​​可以取任意一个值xix_i​​,其中i=1,...,Mi=1,...,M​​,YY​​可以取值yjy_j​​,其中j=1,...,Lj=1,...,L​​考虑总的NN​个试验,我们对变量XX​和YY​进行取样,并让X=xiX=x_i​和Y=yjY=y_j​为nijn_{ij}​​这样的试验的数目。同样让XX​取值xix_i(与YY值无关)的试验次数用cic_i来表示,同样,让YY取值yjy_j的试验次数用rjr_j来表示。

  XX​ 取值xix_i​和YY​取值yjy_j​的概率取(X=xi,Y=yj)(X=x_i,Y=y_j)​​的值,称为X=xiX=x_iY=yjY=y_j的联合概率。它由落在单元格i,ji,j中的点数作为点数总数的一部分给出,因此

p(X=xi,Y=yj)=nijN(1.5)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}

这里我们隐式的考虑极限NN\rightarrow\infty。类似的,不管YY的取值如何,XX的取值xix_i的概率写为p(X=xi)p(X=x_i),并由第ii列中总点数的分数给出,因此

p(X=xi)=ciN(1.6)p(X=x_i)=\frac{c_i}{N}\tag{1.6}

因为图1.10中第ii​列中的示例数只是该列每个单元中实例数的总和,所以我们有ci=jnijc_i=\sum_{j}n_{ij}​,因此从(1.5)和(1.6)中,我们有

p(X=xi)=j=1Lp(X=xi,Y=yj)(1.7)p(X=x_i)=\sum_{j=1}^{L}p(X=x_i,Y=y_j)\tag{1.7}

这是概率的求和规则。注意,p(X=xi)p(X=x_i)有时被称为边缘概率,因为它是通过边缘化或求和其他变量(在本例中为YY)得到的。