概率分布复习:因果推断的统计学基础

56 阅读2分钟

因果推断建模流程里,构建好了贝叶斯网络结构图,下一步是要做贝叶斯网络的概率计算。概率计算环节,往往会涉及到一些经典的概率分布,这篇文章主要是为了复习下常用的概率分布。

Bernoulli Distribution(伯努利分布)

考虑把1个小球(1个随机变量),放入2个箱子的概率。若小球在箱子1的概率为pp,则小球在箱子2的概率为1p1-p

Categorical Distribution(类别分布)

考虑把1个小球(1个随机变量xx),放入KK个箱子的概率。若小球在箱子kk的概率为θk\theta_{k},即P(xk=1)=θkP(x_k=1)=\theta_k,其中k=1kθk=1\sum_{k=1}^k\theta_k=1。故,

p(xθ)=k=1Kθkxkp(x|\theta)=\prod_{k=1}^K\theta_k^{x_k}

Multinomial Distribution (多项分布)

考虑把NN个小球(NN个随机变量),放入KK个箱子的概率。若小球在箱子kk的概率为θk\theta_{k},其中

k=1Kθk=1\sum_{k=1}^K\theta_k=1

NN个小球可以看成NN个独立的观测变量D={x1,x2,,XN}\mathcal{D}=\{x_1,x_2,\ldots,X_N\},则NN个小球的分布

p(Dθ)=N!m1!mK!k=1Kθkmkp(\mathcal{D}|\theta)=\frac{N!}{m_1!\ldots m_K!}\prod_{k=1}^K\theta_k^{m_k}

其中,m1m_1表示在 箱子1内的小球数,...,mKm_K表示在 箱子KK内的小球数,概率即为CNm1CNm1m2Cmkmkθ1m1θ2m2θKmKC_N^{m_1}C_{N-m_1}^{m_2}\ldots C_{m_k}^{m_k}\theta_1^{m_1}\theta_2^{m_2}\ldots\theta_K^{m_K}其中,CNm1CNm1m2CmkmkC_N^{m_1}C_{N-m_1}^{m_2}\ldots C_{m_k}^{m_k}表示,从NN个小球里 选m1m_1个放到箱子1,从Nm1N-m_{1}个小球里 选m2m_2个放到箱子2...化简过程,如下:

CNm1CNm1m2Cmkmk=N!m1!(Nm1)!(Nm1)!m2!(Nm1m2)!C_N^{m_1}C_{N-m_1}^{m_2}\ldots C_{m_k}^{m_k}=\frac{N!}{m_1!(N-m_1)!}\frac{(N-m_1)!}{m_2!(N-m_1-m_2)!}\ldots

公众号原文 概率分布复习:因果推断的统计学基础

Dirichlet Distribution(狄利克雷分布)

Dirichlet分布,如下:

Dir(θα)=Γ(k=1Kαk)Γ(α1)Γ(αK)k=1Kθkαk1Dir(\theta|\alpha)=\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\Gamma(\alpha_1)\ldots\Gamma(\alpha_K)}\prod_{k=1}^K\theta_k^{\alpha_k-1}

其中,θk\theta_{k}kk维随机变量,k=1Kθk=1,θk0 ; α\sum_{k=1}^K\theta_k=1,\theta_k\geq0\mathrm{~;~}\alphakk维参数,每一维都是非负的。下图是k=3k=3时,不同α1,α2,α3\alpha_1,\alpha_2,\alpha_3取值组合,对应的θ\theta分布:

image.png

贝叶斯公式

p(θx)=p(xθ)p(θ)p(x)p(\theta|x)=\frac{p(x|\theta)p(\theta)}{p(x)}

其中,p(θx)p(\theta|x)是后验分布,p(xθ)p(x|\theta)是似然函数,p(θ)p(\theta)是先验分布。

(1)似然分布: 

p(Dθ)=i=1Np(xiθ)=i=1Nk=1Kθkxi,k=k=1Kθkxi,k=k=1Kθkmkp(\mathcal{D}|\theta)=\prod_{i=1}^Np(x_i|\theta)=\prod_{i=1}^N\prod_{k=1}^K\theta_k^{x_{i,k}}=\prod_{k=1}^K\theta_k^{\sum x_{i,k}}=\prod_{k=1}^K\theta_k^{m_k}

 (2)先验分布p(θ)p(\theta)是每个小球被放入每个箱子的概率,p(xiθ)p(x_i|\theta)服从Categorical Distribution的,θ=(θ1,θ2,,θK)\theta=(\theta_1,\theta_2,\ldots,\theta_K)的每个维度θk\theta_{k}表示小球被放入第kk个箱子的概率,满足k=1Kθk=1\sum_{k=1}^K\theta_k=1,其中θk0\theta_{k}\geq0。     

可以假设θ=(θ1,θ2,,θK)\theta=(\theta_1,\theta_2,\ldots,\theta_K)服从Dirichlet Distribution, 也就是        

p(θα)=Dirichlet(θα)=C(α)k=1Kθkαk1p(\theta|\alpha)=Dirichlet(\theta|\alpha)=C(\alpha)\prod_{k=1}^K\theta_k^{\alpha_k-1}

根据贝叶斯公式,对单个观察变量有p(θx,α)p(xθ)p(θα)p(\theta|x,\alpha)\propto p(x|\theta)p(\theta|\alpha),则对全部观测变量有p(θD,α)p(Dθ)p(θα)p(\theta|\mathcal{D},\alpha)\propto p(\mathcal{D}|\theta)p(\theta|\alpha)似然分布 

p(Dθ)=k=1KθkmkDirichlet(m)p(\mathcal{D}|\theta)=\prod_{k=1}^K\theta_k^{m_k}\sim Dirichlet(m)

是Dirichlet Distribution;先验分布 

p(θα)=C(α)k=1Kθkαk1p(\theta|\alpha)=C(\alpha)\prod_{k=1}^K\theta_k^{\alpha_k-1}

根据贝叶斯公式,可得后验分布 

p(Dθ)p(θα)=k=1KθkmkC(α)k=1Kθkαk1k=1Kθkαk+mk1p(\mathcal{D}|\theta)p(\theta|\alpha)=\prod_{k=1}^K\theta_k^{m_k}\cdot C(\alpha)\prod_{k=1}^K\theta_k^{\alpha_k-1}\propto\prod_{k=1}^K\theta_k^{\alpha_k+m_k-1}

服从Dirichlet Distribution,即

k=1Kθkαk+mk1Dirchilet(α+m)\prod_{k=1}^K\theta_k^{\alpha_k+m_k-1}\sim Dirchilet(\alpha+m)

公众号原文 概率分布复习:因果推断的统计学基础

Gamma Distribution(伽马分布)

Gamma函数

image.png

Beta Distribution (贝塔分布)

Beta函数

B(a,b)=10xa1(1x)b1dx,a>0,b>0B(a,b)=\int_1^0x^{a-1}(1-x)^{b-1}dx,a>0,b>0

性质:

(1.)B(a,b)=B(b,a)(1.)\quad B(a,b)=B(b,a)

(2.)B(a,b)=Γ(a)Γ(b)Γ(a+b)(2.)\quad B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}

Beta分布

p(x)={1B(a,b)xa1(1x)b1,0<x<10,其他p(x)= \begin{cases} \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}, & 0<x<1 \\ 0, & \text{其他} & \end{cases}

image.png

关于概率分布的复习基本完了,对相关主题感兴趣的读者欢迎留言交流讨论。更多优质内容请欢迎扫码关注 瑞行AI:

image.png