引言
大语言模型模型的"黑箱"困境已是老生常谈。当前主流的事后解释方案——稀疏自编码器(SAE)——需要在训练好的模型上额外训练一个解码器,发现的特征方向不保证与模型实际使用的计算路径一致。换句话说,SAE 告诉你的是"我认为模型可能在想什么",而不是"模型确实在用什么计算"。
有没有可能让可解释性成为架构本身的结构保证?不是事后分析,而是让模型的计算天然运行在一个可读、可操作的空间上?
reFlow 是一次这个方向的尝试。
核心设计
reFlow 的核心改动只在嵌入层:将标准 Transformer 的全秩嵌入矩阵 分解为两个子矩阵的乘积:
- 信号基底 : 个全局共享的基流信号向量,构成模型的"原子语义库"。
- 配方矩阵 :每个 token 对应一行,定义该 token 如何混合这 个信号。
token 的嵌入不再是独立参数,而是动态生成的:。
关键在于,模型没有独立的 LM Head——输出投影使用同一个 的乘积。这构成了一个闭环:输入编码 → Transformer 骨干网络在信号流形上计算 → 基于信号的解码输出。模型被迫在信号基底构成的空间上完成全部计算。
为解决矩阵乘法引入的方差偏移,推导了初始化控制公式 ,使嵌入方差与 Xavier/He 初始化量级一致,确保训练稳定。
Transformer 骨干网络采用 RMSNorm(保持信号方向属性)、RoPE(注入位置信息但不改变信号模长)、SwiGLU(信号路由门控)。
训练实验
在 OpenWebText(~90 亿 tokens)上进行 50k 步预训练,统一硬件环境(4×T4),对比 7 个模型:
| 模型 | 参数量 | 验证损失 |
|---|---|---|
| GPT-2 | 505.62M | 基线 |
| GPT-2-New | 514.01M | 最优对照 |
| reFlow-1 | 463.67M | 比 GPT-2-New 高 ~3%(层数少 4 层) |
| reFlow-1-Lite | 413.34M | 大幅减参后损失未显著上升 |
| reFlow-1-Small | 46.47M | 遵循缩放定律 |
| reFlow-1-Big | 515.06M | 可解释性实验主模型 |
| reFlow-1-TopK-Big | 515.06M | 硬稀疏对照 |
核心结论:reFlow-1(32 层,463.67M)比 GPT-2-New(36 层,514.01M)高约 3%,但这主要因为层数少 4 层、参数少 9%。当 reFlow-1-Big 对齐至 36 层/515.06M 后,差距收窄至约 1%,性能几乎等价。 从 Small(46.47M,3.55)→ reFlow-1(463.67M,3.01)→ Big(515.06M,2.92),三点严格遵循缩放定律。Lite 变体证明了信号解耦天然压缩注意力冗余——GQA 可以非常激进。
可解释性实验精选
对 reFlow-1-Big(36 层,515M,S=1024)做了 12 项系统性审计,分四组:
配方空间的语义组织性
配方向量之间的余弦相似度呈现出高度语义化的结构:
- 数词聚簇:three↔four 0.76, four↔five 0.72
- 性别对:boy↔girl 0.58, king↔queen 0.54
- 地理关联:China → Chinese/Beijing/Japan
语义代数 3/3 命中:king + woman − man → queen(#1),walked + running − walking → ran(#1),Paris + China − France → Beijing(#2)。
PCA 降维后 Silhouette Score = 0.1052(正值 → 存在真实语义聚类)。
自然稀疏性
在无任何外部约束下,每个词平均仅使用 116.6/1024 个信号——全局激活率 11.38%。Gini 系数仅 0.085,所有信号都被均匀利用,没有"死信号"。有效秩 856.7/1024,显著高于同维度随机矩阵的 824.7。
稀疏性是涌现的,不是强制的。
因果消融
以 "The capital of France is" 为例,仅消融 1 个关键信号即可将目标词概率从 8.31% → 0.03%。该信号的 codebook = {the, a, in, to, an, at}——一个纯粹的功能词通道。因果重要性高度集中于少数关键信号。
行为操控
- 情绪手术:在 L0–L12 注入积极信号 → "terrible" 翻转为 "great"。L18 之后干预失效——这就是"信息结晶边界"。
- 概念注入:将 "The capital of France is" 的输出从 "the" 翻转至 "London",临界 α ≈ 18.6。三组测试临界 α 均值 18.4,可预测且稳定。
- 基因篡改:修改全词表 ,叠加积极情感向量。输出从 "I was so sick" 变为 "I had a lot of fun time with my friends"——语义完整翻转,语法保持连贯。
硬稀疏的教训
Top-64 硬稀疏化的结果令人警醒:
| 指标 | reFlow-1-Big | TopK-Big |
|---|---|---|
| 近邻最高余弦 | 0.7551 | 0.2953 |
| Silhouette Score | 0.1052 | −0.0213 |
| 语义代数 | 3/3 | 0/3 |
| 消融 1 信号残留概率 | 0.03% | 0.46% |
| 基因篡改效果 | 连贯翻转 | 生成崩溃 |
硬稀疏约束系统性地摧毁了配方空间的语义结构。 模型自然选择用 ~117 个信号(11%)定义每个词,强制压缩到 64 个(6.25%)导致全面退化。
由此提出三个猜想:① 训练预算假说(50k 步不够);② 课程学习假说(先稠密后稀疏);③ 稀疏度阈值假说(存在最低语义保真度阈值)。
核心启示:稀疏 ≠ 可解释。
工程价值与展望
- 信号审计工具链:将 12 项实验标准化为自动化诊断流水线,任意训练阶段可对信号空间做"体检"。
- 配方插件市场:社区共享配方补丁(delta),无需重新训练即可定制模型行为——医学术语强化、法律语体调整等。
- 安全审查:从不当输出追溯到关键信号 → 检查 codebook → 判断偏差来源。信息结晶边界(L12–L18)划定了关键监控区间。
- 信号蒸馏:教师/学生共享 ,蒸馏变为信号级对齐而非仅 logit 匹配。
链接与开源信息
- GitHub:github.com/reuAC/reFlo… (MIT 协议,完整训练代码 + 12 项可解释性实验)
- HuggingFace:huggingface.co/reuAC/reFlo… (预训练权重,含 DOI)
- 论文 PDF:英文版
paper/paper.pdf,中文版paper/paper-cn.pdf(均在 repo 内)
基于 nanoGPT 开发,OpenWebText 训练,4×T4 GPU,50k 步。欢迎讨论和复现。