reFlow:一个原生可解释的 Transformer 架构 — 信号空间自发涌现语义结构

8 阅读1分钟

引言

大语言模型模型的"黑箱"困境已是老生常谈。当前主流的事后解释方案——稀疏自编码器(SAE)——需要在训练好的模型上额外训练一个解码器,发现的特征方向不保证与模型实际使用的计算路径一致。换句话说,SAE 告诉你的是"我认为模型可能在想什么",而不是"模型确实在用什么计算"。

有没有可能让可解释性成为架构本身的结构保证?不是事后分析,而是让模型的计算天然运行在一个可读、可操作的空间上?

reFlow 是一次这个方向的尝试。

核心设计

reFlow 的核心改动只在嵌入层:将标准 Transformer 的全秩嵌入矩阵 ERV×dE \in \mathbb{R}^{V \times d} 分解为两个子矩阵的乘积:

WrecipeRV×S,WbasisRS×dW_{recipe} \in \mathbb{R}^{V \times S}, \quad W_{basis} \in \mathbb{R}^{S \times d}

  • 信号基底 WbasisW_{basis}SS 个全局共享的基流信号向量,构成模型的"原子语义库"。
  • 配方矩阵 WrecipeW_{recipe}:每个 token 对应一行,定义该 token 如何混合这 SS 个信号。

token ii 的嵌入不再是独立参数,而是动态生成的:ei=Wrecipe[i]×Wbasise_i = W_{recipe}[i] \times W_{basis}

关键在于,模型没有独立的 LM Head——输出投影使用同一个 Wrecipe×WbasisW_{recipe} \times W_{basis} 的乘积。这构成了一个闭环:输入编码 → Transformer 骨干网络在信号流形上计算 → 基于信号的解码输出。模型被迫在信号基底构成的空间上完成全部计算。

为解决矩阵乘法引入的方差偏移,推导了初始化控制公式 σ=Vs/S\sigma = \sqrt{V_s / \sqrt{S}},使嵌入方差与 Xavier/He 初始化量级一致,确保训练稳定。

Transformer 骨干网络采用 RMSNorm(保持信号方向属性)、RoPE(注入位置信息但不改变信号模长)、SwiGLU(信号路由门控)。

训练实验

在 OpenWebText(~90 亿 tokens)上进行 50k 步预训练,统一硬件环境(4×T4),对比 7 个模型:

模型参数量验证损失
GPT-2505.62M基线
GPT-2-New514.01M最优对照
reFlow-1463.67M比 GPT-2-New 高 ~3%(层数少 4 层)
reFlow-1-Lite413.34M大幅减参后损失未显著上升
reFlow-1-Small46.47M遵循缩放定律
reFlow-1-Big515.06M可解释性实验主模型
reFlow-1-TopK-Big515.06M硬稀疏对照

核心结论:reFlow-1(32 层,463.67M)比 GPT-2-New(36 层,514.01M)高约 3%,但这主要因为层数少 4 层、参数少 9%。当 reFlow-1-Big 对齐至 36 层/515.06M 后,差距收窄至约 1%,性能几乎等价。 从 Small(46.47M,3.55)→ reFlow-1(463.67M,3.01)→ Big(515.06M,2.92),三点严格遵循缩放定律。Lite 变体证明了信号解耦天然压缩注意力冗余——GQA 可以非常激进。

可解释性实验精选

对 reFlow-1-Big(36 层,515M,S=1024)做了 12 项系统性审计,分四组:

配方空间的语义组织性

配方向量之间的余弦相似度呈现出高度语义化的结构:

  • 数词聚簇:three↔four 0.76, four↔five 0.72
  • 性别对:boy↔girl 0.58, king↔queen 0.54
  • 地理关联:China → Chinese/Beijing/Japan

语义代数 3/3 命中:king + woman − man → queen(#1),walked + running − walking → ran(#1),Paris + China − France → Beijing(#2)。

PCA 降维后 Silhouette Score = 0.1052(正值 → 存在真实语义聚类)。

自然稀疏性

在无任何外部约束下,每个词平均仅使用 116.6/1024 个信号——全局激活率 11.38%。Gini 系数仅 0.085,所有信号都被均匀利用,没有"死信号"。有效秩 856.7/1024,显著高于同维度随机矩阵的 824.7。

稀疏性是涌现的,不是强制的。

因果消融

以 "The capital of France is" 为例,仅消融 1 个关键信号即可将目标词概率从 8.31% → 0.03%。该信号的 codebook = {the, a, in, to, an, at}——一个纯粹的功能词通道。因果重要性高度集中于少数关键信号。

行为操控

  • 情绪手术:在 L0–L12 注入积极信号 → "terrible" 翻转为 "great"。L18 之后干预失效——这就是"信息结晶边界"。
  • 概念注入:将 "The capital of France is" 的输出从 "the" 翻转至 "London",临界 α ≈ 18.6。三组测试临界 α 均值 18.4,可预测且稳定。
  • 基因篡改:修改全词表 WrecipeW_{recipe},叠加积极情感向量。输出从 "I was so sick" 变为 "I had a lot of fun time with my friends"——语义完整翻转,语法保持连贯。

硬稀疏的教训

Top-64 硬稀疏化的结果令人警醒:

指标reFlow-1-BigTopK-Big
近邻最高余弦0.75510.2953
Silhouette Score0.1052−0.0213
语义代数3/30/3
消融 1 信号残留概率0.03%0.46%
基因篡改效果连贯翻转生成崩溃

硬稀疏约束系统性地摧毁了配方空间的语义结构。 模型自然选择用 ~117 个信号(11%)定义每个词,强制压缩到 64 个(6.25%)导致全面退化。

由此提出三个猜想:① 训练预算假说(50k 步不够);② 课程学习假说(先稠密后稀疏);③ 稀疏度阈值假说(存在最低语义保真度阈值)。

核心启示:稀疏 ≠ 可解释。

工程价值与展望

  • 信号审计工具链:将 12 项实验标准化为自动化诊断流水线,任意训练阶段可对信号空间做"体检"。
  • 配方插件市场:社区共享配方补丁(delta),无需重新训练即可定制模型行为——医学术语强化、法律语体调整等。
  • 安全审查:从不当输出追溯到关键信号 → 检查 codebook → 判断偏差来源。信息结晶边界(L12–L18)划定了关键监控区间。
  • 信号蒸馏:教师/学生共享 WbasisW_{basis},蒸馏变为信号级对齐而非仅 logit 匹配。

链接与开源信息

基于 nanoGPT 开发,OpenWebText 训练,4×T4 GPU,50k 步。欢迎讨论和复现。