(Page:12-17) 1.2 概率论

297 阅读9分钟

1.2 Probability Theory(概率论)

模式识别领域的一个关键概念是不确定性。它是通过测量中的噪声以及数据集的有限大小产生的。概率论为不确定性的量化和处理提供了一个一致的框架,并形成了模式识别的核心基础之一。党羽第1.5节讨论的决策相结合时,它允许我们在所有可用信息的情况下做出最佳预测,即使这些信息可能不完整或不明确。

  我们将通过一个简单的例子介绍概率论的基本概念。假设我们有两个盒子,一个红色和一个蓝色,在红色盒子里我们有2个苹果和6个桔子,在蓝色盒子里我们有3个苹果和一个桔子。这如图1.9所示。现在假设我们随机挑选其中一个盒子,然后从盒子中随机选择一种水果,观察他是哪种水果后,我们将其替换到它来自的盒子中。我们可以想象多次重复这个过程。让我们假设这样做,我们40%的时间选择红色盒子,60%的时间选择蓝色盒子,当我们从盒子里取出一个水果时,我们同样可能选择盒子里的任何一块水果。

figure 1.9 我们用一个简单的例子来介绍概率的基本概念,即两个颜色的盒子,每个盒子里都有水果(苹果显示为绿色,橙子显示为橙色)

figure_1.9.png   在本例中,将选择的框的标识是一个随机变量,我们将用BB表示。该随机变量可以取两个可能值中的一个,即rr(对应于红色框)或bb(对应于蓝色框)。同样,水果的同一性也是一个随机变量,用FF表示。他可以采用aa(苹果)或oo(橙色)中的任意一个值。

  首先,我们将事件发生的概率定义为事件发生的次数占总试验次数的分数,在总试验次数无限的限制下。因此,选择红色的概率为4/104/10,选择蓝色框的概率为6/106/10。我们将这些概率写成p(B=r)=4/10p(B=r)=4/10p(B=b)=6/10p(B=b)=6/10。注意,根据定义,概率必须在区间[0,1][0,1]内。此外,如果事件是互斥的,并且如果它们包括所有可能的结果(例如,在本例中,框必须是红色或蓝色),那么我们看到这些事件的概率总必须为1。

  我们现在可以问这样的问题:”选择程序选择一个苹果的总概率是多少?“或者”如果我们选择一个橙色,那么我们选择的盒子是蓝色的概率是多少?“。一旦我们掌握了概率的两个基本规则,即总和规则和乘积规则,我们就可以回答这样的问题,甚至可以回答与模式识别问题相关的更复杂的问题。获得这些规则后,我们将回到我们的水果盒示例。

  为了推导概率的规则,考虑图1.10中涉及两个随机变量XXYY的更一般的例子(例如,可以是上面提到的方块和水果变量)。我们假设XX可以取任意一个值xix_i,其中i=1,...,Mi=1,...,MYY可以取值yjy_j,其中j=1,...,Lj=1,...,L。考虑总的NN个实验,我们对变量XXYY进行取样,并让X=xiX=x_iY=yjY=y_jnijn_{ij}这样的实验的数目。同样,让XX取值xix_i(与YY取值无关)的实验次数用cic_i表示,同样,让YY取值yjy_j的试验次数用rjr_j表示。

figure 1.10 我们可以同故宫考虑两个随机变量XX来推导概率的和积规则,XX取值{xi}\{x_i\},其中i=1,...,Mi=1,...,MYY取值{yj}\{y_j\},其中j=1,...,Lj=1,...,L在这个图解中,我们有M=5M=5L=3L=3。如果我们考虑这些变量的实例的总数NN,则我们表示X=xiX=x_iY=yjY=y_j通过nijn_{ij}的实例的数目,这是数组中对应单元中的点的数目。列ii中的点的数目,对应于X=xiX=x_i,由cic_i表示,并且行jj中的点的数目,对应于Y=yjY=y_j,由RjR_j表示。

figure_1_10.png

  XX取值xix_iYY取值yjy_j写的p(X=xi,Y=yj)p(X=x_i,Y=y_j)的值,成为X=xiX=x_iY=yiY=y_i的联合概率。它是由在i,ji,j的点数作为点的总数的一部分,因此

p(X=xi,Y=yj)=nijN(1.5)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}

这里我们隐式地考虑极限NN\rightarrow \infty。类似的,不管YY的值如何,XX取值xix_i的概率写为p(X=xi)p(X=x_i),并由第ii列中总点数的分数给出,所以

p(X=xi)=ciN(1.6)p(X=x_i)=\frac{c_i}{N}\tag{1.6}

因为图1.10中第ii列中的实例数只是该列每个单元格中实例数的总和,所以我们有ci=jnijc_i=\sum _jn_{ij},因此从(1.5)和(1.6),我们有

p(X=xi)=j=1Lp(X=xi,Y=yj)(1.7)p(X=x_i)=\sum^L_{j=1}p(X=x_i,Y=y_j)\tag{1.7}

这是概率的和规则。注意,p(X=xi)p(X=x_i)有时被称为边际概率,因为他是通过边缘化或求和其他变量(在本例中为YY)得到的。

  如果我们只考虑X=xiX=x_i的实例,则这样的实例的分数为Y=yjY=y_j写为p(Y=yjX=xi)p(Y=y_j|X=x_i),并且称为Y=yjY=y_j给定X=xiX=x_i的条件概率。他是通过查找第ii列中属于单元格i,ji,j的点的分数获得的,因此由

p(X=xiY=yj)=nijci(1.8)p(X=x_i|Y=y_j)=\frac{n_{ij}}{c_i}\tag{1.8}

给出(1.5),(1.6),(1.8),然后我们可以得到以下关系

p(X=xi,Y=yj)=nijN=nijciciN=p(Y=yjX=xi)p(X=xi)(1.9)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)\tag{1.9}

这是概率乘积法则。

  到目前为止,我们已经非常小心地区分了随机变量,例如水果实例中盒子BB,以及随机变量可以采用的值,例如,如果框里是红色的,则rr。因此,BB取值rr的概率表示为p(B=r)p(B=r)。虽然这有助于避免歧义,但它会导致一种相当麻烦的符号,在许多情况下,不需要这种迂腐。相反,我们可以简单的写p(B)p(B)来表示随机变量BB上的分布,或p(r)p(r)来表示为特定值rr计算的分布,前提是上下文中的解释是清楚的。

  有了这个更紧凑的符号,我们可以用下面的形式写出概率论的两条基本规则。

The Rules of Probability

​ ​求和规则 p(X)=Yp(X,Y)p(X)=\sum_Yp(X,Y)              (1.10)

​乘积规则 p(X,Y)=p(YX)p(X)p(X,Y)=p(Y|X)p(X)              (1.11)

这里p(X,Y)p(X,Y)是一个联合概率,用"XXYY的概率"表示。类似的,数量p(YX)p(Y|X)是一个条件概率,表示为"给定XXYY的概率",而数量p(X)p(X)是一个边际概率,只是"XX的概率"。这两条简单的规则构成了我们在本书中使用的所有概率机制的基础。

  根据乘积规则,结合对称性p(X,Y)=p(Y,X)p(X,Y)=p(Y,X),我们立即得到条件概率

p(YX)=p(XY)p(Y)p(X)(1.12)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}

之间的关系,成为贝叶斯定理,在模式识别和机器学习中起着核心作用。使用求和公式,贝叶斯定理中的分母可以用分子

p(X)=Yp(XY)p(Y)(1.13)p(X)=\sum_Yp(X|Y)p(Y)\tag{1.13}

中出现的量来表示。我们可以将贝叶斯定理中的分母视为标准化常数,以确保(1.12)左侧的条件概率与YY的所有值之和等于1。

  在图1.11中,我们展示了一个简单的例子,涉及到两个变量的联合分布,以说明边际分布和条件分布的概念。此外,从节理分布中提取了N=60N=60个数据点的有限样本,如左下角所示。右上角时两个YY值各有一个的数据点分数的直方图。根据概率的定义,这些分数等于极限NN中相应的概率p(Y)p(Y)\rightarrow \infty。我们可以将柱状图视为一种简单的建模概率分布的方法,只要从该分布中提取有限数量的点。从数据建模分布是统计模式识别的核心,本书将详细探讨。图1.11中剩下的两个图显示了p(X)p(X)p(XY=1)p(X|Y=1)的相应直方图估计。

figure 1.11 两个变量的分布图,XX取9个可能值,YY取两个可能值。左上图显示了从这些变量的联合概率分布中得出的60个点的样本。其余的图显示了边缘分布p(X)p(X)p(Y)p(Y)的直方图估计,以及与左上角图中第行对应的条件分布p(XY=1)p(X|Y=1)

figure_1_11.png

  现在让我们回到我们的例子,涉及到水果盒。目前,我们将再次明确区分随机变量及其实例化。我们已经看到,选择红色或蓝色框的概率分别由

p(B=r)=4/10(1.14)p(B=r)=4/10\tag{1.14}
p(B=b)=6/10(1.15)p(B=b)=6/10\tag{1.15}

给出。注意,这些满足p(B=r)+p(B=b)=1p(B=r)+p(B=b)=1

  现在假设我们随机选取一个盒子,结果是蓝色的盒子。那么选择一个苹果的概率就是蓝色框中苹果的分数,是3/43/4。因此p(F=aB=b)=3/4p(F=a|B=b)=3/4。事实上,我们可以写出水果类型的所有四个条件概率,再次给定所选框

p(F=aB=r)=1/4(1.16)p(F=a|B=r)=1/4\tag{1.16}
p(F=oB=r)=3/4(1.17)p(F=o|B=r)=3/4\tag{1.17}
p(F=aB=b)=3/4(1.18)p(F=a|B=b)=3/4\tag{1.18}
p(F=oB=b)=1/4(1.19)p(F=o|B=b)=1/4\tag{1.19}

注意,这些概率是标准化的,因此

p(F=aB=r)+p(F=oB=r)=1(1.20)p(F=a|B=r)+p(F=o|B=r)=1\tag{1.20}

和类似的

p(F=aB=b)+p(F=oB=b)=1(1.21)p(F=a|B=b)+p(F=o|B=b)=1\tag{1.21}

我们现在可以使用概率的和积规则来评估选择苹果的总体概率

p(F=a)=p(F=aB=r)p(B=r)+p(F=aB=b)p(B=b)=14×410+34×610=1120(1.22)p(F=a)=p(F=a|B=r)p(B=r)+p(F=a|B=b)p(B=b)=\frac{1}{4}\times\frac{4}{10}+\frac{3}{4}\times\frac{6}{10}=\frac{11}{20}\tag{1.22}

根据求和规则,p(F=o)=111/20=9/20p(F=o)=1-11/20=9/20

  相反,假设我们被告已知已选择了一块水果,它是一个橘子,我们想知道它来自哪个盒子。这要求我们评估以水果身份为条件的盒子上的概率分布,而(1.16)-(1.19)中的概率给出了以盒子身份为条件的水果上的概率分布。我们可以通过使用贝叶斯定理来解决条件概率的反转问题,给出

p(B=rF=o)=p(F=oB=r)p(B=r)p(F=o)=34×410×209=23(1.23)p(B=r|F=o)=\frac{p(F=o|B=r)p(B=r)}{p(F=o)}=\frac{3}{4}\times\frac{4}{10}\times\frac{20}{9}=\frac{2}{3}\tag{1.23}

根据求和规则,p(B=bF=o)=12/3=1/3p(B=b|F=o)=1-2/3=1/3

  我们可以对贝叶斯定理进行如下重要解释。如果我们在被告知所选水果的身份之前被问到选择了哪个盒子,那么我们所能得到的最完整的信息就是概率p(B)p(B)。我们称之为先验概率,因为它是在我们观察水果的特性之前可用的概率。一旦我们被告知水果是橘子,我们就可以使用贝叶斯定理来计算概率p(BF)p(B|F),我们将其称为后验概率。请注意,在本例中,选择红色框的先验概率为4/10,因此我们更可能选择蓝色框而不是红色框。然而,一旦我们观察到所选的水果是橙色的,我们发现红色盒子的后验概率现在是2/3,因此我们现在更可能选择的盒子实际上是红色的。这一结果符合我们的直觉,因为红色盒子里的橙子比例比蓝色盒子里的高很多,因此观察到的水果是橙子提供了支持盒子的重要证据,是的选择红色框而不是蓝色框的可能性更大。

  最后,我们注意到,如果两个变量的联合分布分解成边缘的乘积,使得p(X,Y)=p(X)p(Y)p(X,Y)=p(X)p(Y),那么XXYY称为独立的。从乘积规则中,我们看到p(YX)=p(Y)p(Y|X)=p(Y),因此给定XXYY的条件分布确实与XX的值无关。例如,在我们的水果和实例中,如果每个盒子包含相同比例的苹果和橙子,那么p(FB)=P(F)p(F|B)=P(F),因此选择(比如)苹果的概率与选择哪个盒子无关。