OpenAI 迈出关键一步:LLM 黑盒不再是盲盒

38 阅读4分钟

OpenAI 迈出关键一步:LLM 黑盒不再是盲盒

最近OpenAI又OpenAI(开源)了新的研究成果。【AI大模型教程】

尽管大模型能力飞速提升,但我们对它们的内部机制知之甚少。比如:

  • GPT-4 为什么会写代码?
  • 它怎么判断该用单引号还是双引号?
  • 它怎么知道列表嵌套了几层?

这些问题,我们无法直接回答。因为大模型的神经元激活模式复杂,不直接对应人类概念。这种现象被称为叠加(superposition)——多个概念压缩在同一个神经元里,导致可解释性极其困难。

用“稀疏”逼出“可解释”

OpenAI 团队提出了一种全新范式

训练权重稀疏的 Transformer 模型,让模型自己学会“模块化”表达概念,从而提取出人类可理解的电路

他们不是去“破解”现有模型,而是从头训练一个更容易解释的模型,然后用它作为“显微镜”,去理解更复杂的模型。

方法概览:三步走

整体设置的示意图。先训练权重稀疏模型。然后,对于精选的一套简单行为中的每一项,将模型剪枝至执行任务所需的节点子集。通过将节点剪枝至其在预训练分布上的平均激活值来消融节点。

步骤内容目的
① 训练稀疏模型权重稀疏(L0 正则)+ 激活稀疏(AbsTopK)强制模型只用少数神经元完成任务
② 剪枝电路针对每个任务,剪枝出最小子图提取“任务专用电路”
③ 验证电路用“mean ablation”验证电路是否必要且充分确保电路是“忠实”的

关键结果 1:稀疏模型电路比稠密模型小 16 倍

在相同预训练损失下,稀疏模型的任务电路比稠密模型小 16 倍,且更容易定位。

关键结果 2:电路真的“看得懂”

他们手动解读了多个任务的电路,发现:

✅ 示例 1:字符串闭合任务(single vs double quote)

  • 0.mlp 层:两个神经元分别检测“是否有引号”和“是单引号还是双引号”
  • 10.attn 层:用这两个信息作为 key/value,完成字符串闭合

整个电路只用 12 个节点、9 条边,人类可读、可验证。

✅ 示例 2:列表嵌套深度计数(bracket counting)

  • 2.attn 层:检测“[” token,计算上下文平均值 → 得到嵌套深度
  • 4.attn 层:用阈值判断是否需要输出“]]”

他们甚至能用这个理解构造对抗样本:在长列表前加干扰注释,误导模型误判嵌套深度

✅ 示例 3:变量类型追踪(set vs string)

  • 两步注意力机制
  1. 把变量名复制到 set() 或 ""  token
  2. 再用这个 token 的值作为 key,回传给最终 token

这种“两步查表”机制,人类程序员也会这么写

关键结果 3:稀疏模型能“桥接”稠密模型

他们提出 bridge 方法
训练一个稀疏模型 + 桥接器(encoder/decoder),让它模仿稠密模型的行为

然后,在稀疏模型上做“可解释干预”(比如改变引号类型),再通过桥接器映射回稠密模型,发现:

稠密模型的行为也被成功改变了!

这意味着:稀疏模型不仅是“玩具”,还能用来理解真实模型

关键结果 4:模型越大,越可解释

在固定稀疏度(L0)下,模型越大,电路越小、能力越强
这表明:** scaling 不仅提升能力,也提升可解释性**。

局限性:还不能解释 GPT-4

问题说明
训练成本高稀疏模型训练比稠密模型慢 100~1000 倍
规模有限目前只到数千万参数,远小于 GPT-4
电路复杂复杂任务的电路仍有上千条边,人工解读困难
非单语义某些神经元仍“多任务共用”,未完全摆脱叠加

未来方向

OpenAI 提出两条路线:

✅ 路线 1:打造“模型生物”

训练一系列可解释的稀疏模型,从 GPT-1 规模到 GPT-3 规模,研究它们的电路 motifs(重复结构),为理解大模型提供“解剖图谱”。

✅ 路线 2:聚焦关键行为

不解释整个模型,只解释关键行为(如欺骗、拒绝、目标追求),训练稀疏桥接模型,用于安全审计

OpenAIhttps://github.com/openai/circuit_sparsity/Weight-sparse transformers have interpretable circuitshttps://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf