贝叶斯中的先验与后验:以抛硬币为例

205 阅读1分钟

贝叶斯中的先验与后验:以抛硬币为例

核心思想

贝叶斯统计的核心是:

后验=似然×先验证据\text{后验} = \frac{\text{似然} \times \text{先验}}{\text{证据}}

即:

P(θD)=P(Dθ)P(θ)P(D)P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}
  • θ\theta:未知参数,比如硬币正面朝上的真实概率
  • DD:观测数据,比如“10 次抛硬币中 7 次正面”
  • P(D)P(D):所有可能的 θ\theta 下,加权平均后,看到这种数据的总体概率
  • P(θ)P(\theta):先验分布(Prior)
  • P(Dθ)P(D|\theta):似然函数(Likelihood)
  • P(θD)P(\theta|D):后验分布(Posterior)

先验分布(Prior)

先验代表我们在“看到数据之前”的主观相信。

在抛硬币问题中,θ[0,1]\theta \in [0,1],自然选择定义在 [0,1][0,1] 区间的分布:

👉 Beta 分布

Beta 分布是一个定义在 [0,1][0,1] 区间上的概率分布。它可以表示“某个概率参数的不确定性”。

写作:

θBeta(α,β)\theta \sim \text{Beta}(\alpha, \beta)

公式:

f(θ;α,β)=θα1(1θ)β1B(α,β),0θ1f(\theta; \alpha, \beta) = \frac{\theta^{\alpha - 1}(1 - \theta)^{\beta - 1}}{B(\alpha, \beta)}, \quad 0 \le \theta \le 1
Figure_1转存失败,建议直接上传图片文件
Beta(α,β)θα1(1θ)β1\text{Beta}(\alpha, \beta) \propto \theta^{\alpha - 1}(1 - \theta)^{\beta - 1}
  • α\alpha 越大 → 偏向正面多
  • β\beta 越大 → 偏向反面多
  • α=β=1\alpha = \beta = 1 → 均匀分布(完全无偏见)

常见示例:

分布形状含义
Beta(1,1)\text{Beta}(1,1)平均分布完全无先验知识
Beta(2,2)\text{Beta}(2,2)中心偏好偏向“硬币大致公平”
Beta(5,2)\text{Beta}(5,2)偏向正面认为硬币多为正面
Beta(20,20)\text{Beta}(20,20)中心偏好(更窄)强烈信念 硬币非常公平

总结:α+β\alpha + \beta 越大,先验越“强”,越相信某个区间;α+β\alpha + \beta 越小,先验越弱,接近无偏见。

实际应用中:

  • 对完全未知的概率参数 → Beta(1,1)\text{Beta}(1,1)
  • 对大致有经验的参数 → Beta(α,β)α>1, β>1\text{Beta}(\alpha,\beta) \quad \alpha > 1,\ \beta>1

似然函数(Likelihood)

数据来自 二项分布

P(Dθ)=Binomial(n,θ)=Cnkθk(1θ)nkP(D | \theta) = \text{Binomial}(n, \theta) = C_n^k \, \theta^k (1 - \theta)^{n - k}

其中:

  • n=10n = 10:抛硬币次数
  • k=7k = 7:出现正面的次数

组合数 CnkC_n^kθ\theta 无关,因此在贝叶斯更新中通常被省略。


后验分布(Posterior)

贝叶斯更新公式:

P(θD)P(Dθ)P(θ)P(\theta | D) \propto P(D | \theta) P(\theta)

将似然和先验代入:

P(θD)θk(1θ)nkθα1(1θ)β1P(\theta | D) \propto \theta^{k} (1 - \theta)^{n - k} \cdot \theta^{\alpha - 1}(1 - \theta)^{\beta - 1}
P(θD)θ(α+k)1(1θ)(β+nk)1\Rightarrow P(\theta | D) \propto \theta^{(\alpha + k) - 1}(1 - \theta)^{(\beta + n - k) - 1}

即:

θDBeta(α+k,β+nk)\boxed{\theta | D \sim \text{Beta}(\alpha + k, \beta + n - k)}

这就是 Beta–二项分布的共轭关系

Beta 分布是二项分布的共轭先验。 乘上似然后,后验仍是 Beta 分布(形状参数只更新)。

所谓 共轭分布(Conjugate distribution),是指:

  • 如果先验分布和似然分布的形式相乘后,得到的后验分布仍然是同一个分布族(只是参数不同)。

Example

抛硬币 10 次看到 7 次正面

先验:

θBeta(2,2)\theta \sim \text{Beta}(2, 2)

数据:

D:7 正面,3 反面D: 7\text{ 正面}, 3\text{ 反面}

后验:

θDBeta(2+7,2+3)=Beta(9,5)\theta | D \sim \text{Beta}(2 + 7, 2 + 3) = \text{Beta}(9, 5)

总结

概念含义数学形式直觉
先验 Prior你在看数据前的信念Beta(α,β)\text{Beta}(\alpha, \beta)觉得硬币大概怎样
似然 Likelihood数据支持什么样的 θ\thetaθk(1θ)nk\theta^k(1-\theta)^{n−k}实验结果
后验 Posterior综合后信念Beta(α+k,β+nk)\text{Beta}(\alpha+k, \beta+n−k)更新后的看法
Figure_1转存失败,建议直接上传图片文件

蓝色曲线 —— Prior(先验)

  • 横轴:θ\theta(比如硬币正面概率)
  • 蓝色曲线表示我们在看到数据之前θ\theta 的信念。
  • 例:我认为硬币差不多公平 → 峰值在 θ=0.5\theta=0.5 附近。

橙色曲线 —— Likelihood(似然)

  • 表示:假设不同的 θ\theta,得到当前数据(抛硬币 10 次看到 7 次正面)的可能性多大。
  • 比如:
    • 如果 θ=0.8\theta=0.8 → 出现7正3反很常见 → 概率高;
    • 如果 θ=0.2\theta=0.2 → 这种结果几乎不可能 → 概率低。
  • 所以橙色曲线在 θ=0.7\theta=0.70.80.8 附近最高。

绿色曲线 —— Posterior(后验)

  • 表示“更新后的信念”。
  • 它结合了:
    • 蓝色先验(原本的想法)
    • 橙色似然(数据的证据)
  • 结果:绿色曲线介于两者之间,既受先验影响,又受数据影响。 (在硬币例子中,大概会向 θ=0.60.7\theta=0.6 \sim 0.7 偏一点)

橙色阴影区 —— P(D)(证据)

  • 是橙色曲线(似然)与蓝色曲线(先验)相乘后、再积分得到的“总面积”。
  • 它确保最终的绿色后验曲线总概率为1
  • 直观理解:它衡量“在所有 θ\theta, 下,这组数据出现的总可能性”。

贝叶斯推断就是:用先验(信念)乘上似然(证据),得到后验(更新的信念)。