贝叶斯概率
贝叶斯概率即条件概率,其公式为:
P(A∣B)=P(B)P(A,B)或P(A∩B)(1)
该公式可以通过一个简单的例子来理解。
有一副扑克牌,总共有54张扑克,我们从其中抽到红色且数字为4的牌的概率为542(只有两张红色数字为4的牌,红桃4和方片4),抽到红色牌的概率P(红色)=5426,在抽到红色牌的基础上抽到的牌数字为4的概率为P(数字4∣红色)=262,那么我们抽到红色且数字为4的牌的概率为
P(红色,数字4)=P(红色)×P(数字4∣红色)=542(2)
将以上公式改成P(数字4)×P(红色∣数字4)也是一样的。
P(数字4∣红色)为条件概率,意为当抽到的牌为红色时该牌数字为4的概率。P(红色,数字4)为联合概率,意为抽到的牌为红色且为数字4的概率。由公式(2)即可得到条件概率的计算公式(1)。
又由:
P(红色,数字4)=P(红色)×P(数字4∣红色)=P(数字4)×P(红色∣数字4)(3)
可以推出公式:
P(A∣B)=P(B)P(B∣A)×P(A)(4)
PS:我一开始不理解为什么P(数字4,红色)不是P(数字4)×P(红色),后来想明白了,因为这需要“红色”和“数字4”这两个事件相互独立时才能成立,此时P(A∣B)=P(A)。
全概率公式
全概率公式为:
P(A)=∑i=1nP(Bi)P(A∣Bi)(5)
Bi(i=1,2,...,n)为所有可能导致A的原因,它们互相之间是互不相容的,即Bi∩Bj=∅(i=j且i,j∈[1,n]),所有Bi(i=1,2,...,n)是样本空间S的一个完备事件组,即B1∪B2...∪Bn=S。
最大似然估计
扑克牌的例子中我们很容易就得到了P(A)和P(B∣A)的值,因为扑克牌的所有样本都是已知的,但现实中在样本数据有限时,可能很难得到P(A)和P(B∣A)的值,这就需要对这两个概率进行估计,P(A)的估计较为简单,而P(B∣A)的估计则相对较难,这时候通常就会把概率密度函数的估计问题简化为参数的估计问题,而最大似然估计就是参数估计方法的一种。
假设存在样本集合D,和估计参数向量 θ,其中:
D={x1,x2,...,xn}
P(D∣θ)为在估计参数向量θ的条件下得到样本集合D的概率,又可以将其称之为似然函数,用 l(θ)表示。
l(θ)=P(D∣θ)=P(x1,x2,...,xn∣θ)=∏i=1nP(xi∣θ)
最大似然估计的目的就是:在已知样本结果的情况下,估计最可能导致这个结果的参数值,即求令 l(θ) 最大时的 θ 值。