贝叶斯主义者的自我修养

53 阅读6分钟

贝叶斯概率

一则笑话:一个贝叶斯主义者在马厩发现了一头驴,然后他说他看到了一只骡子。

从条件概率到贝叶斯概率

P[BA]=P[AB]P[A]=P[AB]P[B]P[A]P[B \mid A] = \frac{P[AB]}{P[A]} = \frac{P[A \mid B] \cdot P[B]}{P[A]}

  • 先验概率 P(B):基于历史数据或主观经验的初始信念
  • 似然函数 P(A∣B):基于当前信念,观察到当前数据的可能性
  • 后验概率 P(B∣A):结合新证据后更新后的信念
  • 边缘概率P(A):可以通过全概率公式计算常数

生小孩的概率问题

有一家生了两个小孩,问:

  1. 如果第一个是男孩,第二个还是男孩的概率
  2. 如果至少有一个是男孩,两个都是男孩的概率
  3. 如果至少有一个是星期二出生的男孩,两个都是男孩的概率

解答:

  1. P[第二个还是男孩|第一个是男孩]

    1.   = (P[第一个是男孩|第二个还是男孩]*P[第二个还是男孩])/P[第一个是男孩]
    2.   = (1/2*1/2)/(1/2)=1/2
  2. P[两个都是男孩|至少有一个是男孩]

    1.   = (P[至少有一个是男孩|两个都是男孩]*P[两个都是男孩])/P[至少有一个是男孩]
    2.   = (1/21/2)/[1-(1/21/2)]=1/3
  3. P[两个都是男孩|至少有一个是星期二出生的男孩]

    1.   =( P[至少有一个是星期二出生的男孩|两个都是男孩]* P[两个都是男孩])/P[至少有一个是星期二出生的男孩]
    2.   =(1-6/7*6/7)1/4/(1-(13/14)(13/14)) = (49-36)/49/((196-169)/196)=13/27

贝叶斯主义 vs 频率主义

频率主义:概率是长期重复事件的客观频率

贝叶斯主义:概率是对不确定性的主观信念(degree of belief)

两种主义的医生

一个病人的xx病毒检验报告呈阳性,现在找两位大夫去评估他的患病概率。

已知相关的概率如下:

  • 患者患病时,检验报告95%概率呈阳性;
  • 患者未患病时,检验报告10%概率呈阳性;
  • 人群基础发病率为 0.1%(即人群中每1000人有1人患病)。

频率主义的医生的诊断

患病概率=真阳性真阳性+假阳性患病概率 = \frac{\text{真阳性}}{\text{真阳性} + \text{假阳性}}

% 代入具体数值示例 患病概率 = \frac{0.95 \times 0.001}{0.95 \times 0.001 + (1 - 0.90) \times (1 - 0.001)} \approx 0.0094 \quad (0.94\%)

贝叶斯主义的医生的诊断

P(患病阳性)=P(阳性患病)P(患病)P(阳性)P(\text{患病} \mid \text{阳性}) = \frac{P(\text{阳性} \mid \text{患病}) \cdot P(\text{患病})}{P(\text{阳性})}

% 分解计算步骤 P(\text{阳性}) = P(\text{阳性} \mid \text{患病}) \cdot P(\text{患病}) + P(\text{阳性} \mid \text{未患病}) \cdot P(\text{未患病})

% 最终后验概率 P(\text{患病} \mid \text{阳性}) = \frac{0.95 \times 0.001}{0.10085} \approx 0.0094 \quad (0.94\%)

哪个医生更好?

  • 两个医生的诊断结果一致,看起来没啥区别?

    • 频率主义:“0.94%” 是 “所有检验阳性的人里,长期来看实际患病的比例”,是对 “群体频率” 的描述,不直接针对该患者个体。
    • 贝叶斯主义:“0.94%” 是 “针对这个患者,在已知检验阳性后,我认为他患病的信念强度”,是对 “个体不确定性” 的量化。
  • 贝叶斯主义 vs 信息完备的频率主义

如果世间的所有规律都可以被精确量化,那么贝叶斯主义->频率主义

  • 贝叶斯医生的后手

在与患者交流后得知,患者有疫区接触史,贝叶斯医生根据经验调整先验概率0.1%为10%:

P新后验=0.95×0.100.95×0.10+0.10×0.90=0.0950.095+0.090.514(51.4%)P_{\text{新后验}} = \frac{0.95 \times 0.10}{0.95 \times 0.10 + 0.10 \times 0.90} = \frac{0.095}{0.095 + 0.09} \approx 0.514 \quad (51.4\%)

  • 贝叶斯医生的误区

先验概率的主观性为贝叶斯医生的诊断带来了不确定性。

再看生小孩的概率问题

如果这家生了10个小孩全都是男孩,那么即将出生第11个孩子是仍然是男孩的概率是多少呢?

  • 频率主义者= 1/2
  • 贝叶斯主义者=11/12

贝叶斯主义的澄清

贝叶斯主义 vs 怀疑论

“太阳每天都东升西落”......吗?

怀疑论:否认确定性(提出问题)

贝叶斯主义者:否认确定性的同时,给出不确定性的度量(进一步提出解决方案)

情境频率主义者贝叶斯主义者怀疑论者
每日观测日出后“概率为1”“概率从0.999999升至0.999999999”“这不能证明什么”
决策建议“100%按日出计划农耕”“按99.9999%概率行动,但备应急方案”“所有计划都是无意义的”
某天太阳未升起“统计模型失效”“立即修正模型”“看吧,我早说过不能相信感官!”

贝叶斯主义 vs 三段论

在推理过程上具有相似性。

三段论:从普遍到特殊,确定性传递(若前提为真,结论必然为真)。

贝叶斯主义:从部分到整体,概率化更新(结论是信念的修正,非绝对确定)。

  • 三段论:If A⊆B and x∈A, then x∈B
  • 贝叶斯:If P(B|A) and P(A), then update P(A|B)
先验 ≈ 大前提(背景知识)
似然 ≈ 小前提(新证据)
后验 ≈ 结论

贝叶斯主义 vs 大模型

大模型是贝叶斯主义者吗

Enough Coin Flips Can Make LLMs Act Bayesian

研究人员设计了一个简单的“掷硬币”实验来模拟LLM的推理过程。他们没有使用复杂的语言任务,而是让LLM预测一个被“偏置”的硬币(例如,有60%的几率是正面朝上)的下一次结果。

他们通过两种方式给LLM提供信息:

  • 明确的偏置指令: 比如直接告诉LLM“这个硬币有X%的几率是正面朝上”。
  • 语境学习(ICL): 不直接告诉LLM硬币的偏置,而是给它一系列的掷硬币例子(比如,先给出10次掷硬币的结果,然后问下一次是什么)。

实验结果可见,着LLM看到越来越多的掷硬币例子,它对硬币偏置的估计会逐渐接近真实的偏置,而且这种更新方式与贝叶斯推理的数学原理非常吻合。这意味着模型在看到少量示例后,会基于这些先验示例,不断更新后验结论,从这个角度上来看,大模型也是一个贝叶斯主义者。

且当LLM被明确告知硬币的偏置,并且也提供了一系列掷硬币的例子时,LLM更倾向于依赖这些例子来更新自己的信念,而不是明确的指令。

语境学习(In-Context Learning)是大模型“智能涌现(Emergent Abilities)”的核心体现之一,它使模型具备了类似人类的适时情境学习的能力。目前,大语言模型的语境学习能力还没有一个完全明确和被广泛接受的统一解释。Xie等人(An explanation of in-context learning as implicit bayesian inference,2021)和Zhang等人(What and how does in-context learning learn? bayesian model averaging, parameterization, and generalization,2023)就提出了ICL可以被视为一种隐式的贝叶斯模型。

贝叶斯方法高效处理幻觉

Hallucination Detection for Generative Large Language Models by Bayesian Sequential Estimation

传统的做法会通过拉取固定的文档数据去核对大模型输出的结论,但是效率较低。因此引入了贝叶斯方法,根据前序的检验动态更新当前输出为真的概率,降低搜索的次数,提升推理效率。