贝叶斯概率学习

431 阅读2分钟

贝叶斯概率

贝叶斯概率即条件概率,其公式为: P(AB)=P(A,B)P(AB)P(B)(1)P(A|B)=\frac{P(A,B)或P(A∩B)}{P(B)}\qquad (1)

该公式可以通过一个简单的例子来理解。

有一副扑克牌,总共有54张扑克,我们从其中抽到红色且数字为4的牌的概率为254\frac{2}{54}(只有两张红色数字为4的牌,红桃4和方片4),抽到红色牌的概率P(红色)=2654P(红色)=\frac{26}{54},在抽到红色牌的基础上抽到的牌数字为4的概率为P(数字4红色)=226P(数字4|红色) = \frac{2}{26},那么我们抽到红色且数字为4的牌的概率为

P(红色,数字4)=P(红色)×P(数字4红色)=254(2)P(红色,数字4)=P(红色)×P(数字4|红色)=\frac{2}{54}\qquad (2)

将以上公式改成P(数字4)×P(红色数字4)P(数字4)×P(红色|数字4)也是一样的。

P(数字4红色)P(数字4|红色)为条件概率,意为当抽到的牌为红色时该牌数字为4的概率。P(红色,数字4)P(红色,数字4)为联合概率,意为抽到的牌为红色且为数字4的概率。由公式(2)即可得到条件概率的计算公式(1)。

又由:

P(红色,数字4)=P(红色)×P(数字4红色)=P(数字4)×P(红色数字4)(3)P(红色,数字4)=P(红色)×P(数字4|红色)=P(数字4)×P(红色|数字4)\qquad (3)

可以推出公式:

P(AB)=P(BA)×P(A)P(B)(4)P(A|B)=\frac{P(B|A)×P(A)}{P(B)}\qquad (4)

PS:我一开始不理解为什么P(数字4,红色)P(数字4,红色)不是P(数字4)×P(红色)P(数字4)×P(红色),后来想明白了,因为这需要“红色”和“数字4”这两个事件相互独立时才能成立,此时P(AB)=P(A)P(A|B)=P(A)

全概率公式

全概率公式为: P(A)=i=1nP(Bi)P(ABi)(5)P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)\qquad (5)

Bi(i=1,2,...,n)B_i (i=1,2,...,n)为所有可能导致A的原因,它们互相之间是互不相容的,即BiBj=(iji,j[1,n])B_i∩B_j=∅(i≠j且i,j∈[1,n]),所有Bi(i=1,2,...,n)B_i (i=1,2,...,n)是样本空间S的一个完备事件组,即B1B2...Bn=SB_1∪B_2...∪B_n=S

最大似然估计

扑克牌的例子中我们很容易就得到了P(A)P(A)P(BA)P(B|A)的值,因为扑克牌的所有样本都是已知的,但现实中在样本数据有限时,可能很难得到P(A)P(A)P(BA)P(B|A)的值,这就需要对这两个概率进行估计,P(A)P(A)的估计较为简单,而P(BA)P(B|A)的估计则相对较难,这时候通常就会把概率密度函数的估计问题简化为参数的估计问题,而最大似然估计就是参数估计方法的一种。

假设存在样本集合D,和估计参数向量 θ\theta,其中:

D={x1,x2,...,xn}D=\{x_1,x_2,...,x_n\}

P(Dθ)P(D|\theta)为在估计参数向量θ\theta的条件下得到样本集合D的概率,又可以将其称之为似然函数,用 l(θ)l(\theta)表示。

l(θ)=P(Dθ)=P(x1,x2,...,xnθ)=i=1nP(xiθ)l(\theta) = P(D|\theta) = P(x_1,x_2,...,x_n|\theta) = \prod_{i=1}^nP(x_i|\theta)

最大似然估计的目的就是:在已知样本结果的情况下,估计最可能导致这个结果的参数值,即求令 l(θ)l(\theta) 最大时的 θ\theta 值。