reFlow：一个原生可解释的 Transformer 架构 — 信号空间自发涌现语义结构有没有可能让可解释性成为架构本

引言

大语言模型模型的"黑箱"困境已是老生常谈。当前主流的事后解释方案——稀疏自编码器（SAE）——需要在训练好的模型上额外训练一个解码器，发现的特征方向不保证与模型实际使用的计算路径一致。换句话说，SAE 告诉你的是"我认为模型可能在想什么"，而不是"模型确实在用什么计算"。

有没有可能让可解释性成为架构本身的结构保证？不是事后分析，而是让模型的计算天然运行在一个可读、可操作的空间上？

reFlow 是一次这个方向的尝试。

核心设计

reFlow 的核心改动只在嵌入层：将标准 Transformer 的全秩嵌入矩阵 $E \in \mathbb{R}^{V \times d}$ 分解为两个子矩阵的乘积：

$W_{recipe} \in \mathbb{R}^{V \times S}, \quad W_{basis} \in \mathbb{R}^{S \times d}$

信号基底 $W_{basis}$ ： $S$ 个全局共享的基流信号向量，构成模型的"原子语义库"。
配方矩阵 $W_{recipe}$ ：每个 token 对应一行，定义该 token 如何混合这 $S$ 个信号。

token $i$ 的嵌入不再是独立参数，而是动态生成的： $e_i = W_{recipe}[i] \times W_{basis}$ 。

关键在于，模型没有独立的 LM Head——输出投影使用同一个 $W_{recipe} \times W_{basis}$ 的乘积。这构成了一个闭环：输入编码 → Transformer 骨干网络在信号流形上计算 → 基于信号的解码输出。模型被迫在信号基底构成的空间上完成全部计算。

为解决矩阵乘法引入的方差偏移，推导了初始化控制公式 $\sigma = \sqrt{V_s / \sqrt{S}}$ ，使嵌入方差与 Xavier/He 初始化量级一致，确保训练稳定。

Transformer 骨干网络采用 RMSNorm（保持信号方向属性）、RoPE（注入位置信息但不改变信号模长）、SwiGLU（信号路由门控）。

训练实验

在 OpenWebText（~90 亿 tokens）上进行 50k 步预训练，统一硬件环境（4×T4），对比 7 个模型：

模型	参数量	验证损失
GPT-2	505.62M	基线
GPT-2-New	514.01M	最优对照
reFlow-1	463.67M	比 GPT-2-New 高 ~3%（层数少 4 层）
reFlow-1-Lite	413.34M	大幅减参后损失未显著上升
reFlow-1-Small	46.47M	遵循缩放定律
reFlow-1-Big	515.06M	可解释性实验主模型
reFlow-1-TopK-Big	515.06M	硬稀疏对照

核心结论：reFlow-1（32 层，463.67M）比 GPT-2-New（36 层，514.01M）高约 3%，但这主要因为层数少 4 层、参数少 9%。当 reFlow-1-Big 对齐至 36 层/515.06M 后，差距收窄至约 1%，性能几乎等价。 从 Small（46.47M，3.55）→ reFlow-1（463.67M，3.01）→ Big（515.06M，2.92），三点严格遵循缩放定律。Lite 变体证明了信号解耦天然压缩注意力冗余——GQA 可以非常激进。

可解释性实验精选

对 reFlow-1-Big（36 层，515M，S=1024）做了 12 项系统性审计，分四组：

配方空间的语义组织性

配方向量之间的余弦相似度呈现出高度语义化的结构：

数词聚簇：three↔four 0.76, four↔five 0.72
性别对：boy↔girl 0.58, king↔queen 0.54
地理关联：China → Chinese/Beijing/Japan

语义代数 3/3 命中：king + woman − man → queen（#1），walked + running − walking → ran（#1），Paris + China − France → Beijing（#2）。

PCA 降维后 Silhouette Score = 0.1052（正值 → 存在真实语义聚类）。

自然稀疏性

在无任何外部约束下，每个词平均仅使用 116.6/1024 个信号——全局激活率 11.38%。Gini 系数仅 0.085，所有信号都被均匀利用，没有"死信号"。有效秩 856.7/1024，显著高于同维度随机矩阵的 824.7。

稀疏性是涌现的，不是强制的。

因果消融

以 "The capital of France is" 为例，仅消融 1 个关键信号即可将目标词概率从 8.31% → 0.03%。该信号的 codebook = {the, a, in, to, an, at}——一个纯粹的功能词通道。因果重要性高度集中于少数关键信号。

行为操控

情绪手术：在 L0–L12 注入积极信号 → "terrible" 翻转为 "great"。L18 之后干预失效——这就是"信息结晶边界"。
概念注入：将 "The capital of France is" 的输出从 "the" 翻转至 "London"，临界 α ≈ 18.6。三组测试临界 α 均值 18.4，可预测且稳定。
基因篡改：修改全词表 $W_{recipe}$ ，叠加积极情感向量。输出从 "I was so sick" 变为 "I had a lot of fun time with my friends"——语义完整翻转，语法保持连贯。

硬稀疏的教训

Top-64 硬稀疏化的结果令人警醒：

指标	reFlow-1-Big	TopK-Big
近邻最高余弦	0.7551	0.2953
Silhouette Score	0.1052	−0.0213
语义代数	3/3	0/3
消融 1 信号残留概率	0.03%	0.46%
基因篡改效果	连贯翻转	生成崩溃

硬稀疏约束系统性地摧毁了配方空间的语义结构。 模型自然选择用 ~117 个信号（11%）定义每个词，强制压缩到 64 个（6.25%）导致全面退化。

由此提出三个猜想：① 训练预算假说（50k 步不够）；② 课程学习假说（先稠密后稀疏）；③ 稀疏度阈值假说（存在最低语义保真度阈值）。

核心启示：稀疏 ≠ 可解释。

工程价值与展望

信号审计工具链：将 12 项实验标准化为自动化诊断流水线，任意训练阶段可对信号空间做"体检"。
配方插件市场：社区共享配方补丁（delta），无需重新训练即可定制模型行为——医学术语强化、法律语体调整等。
安全审查：从不当输出追溯到关键信号 → 检查 codebook → 判断偏差来源。信息结晶边界（L12–L18）划定了关键监控区间。
信号蒸馏：教师/学生共享 $W_{basis}$ ，蒸馏变为信号级对齐而非仅 logit 匹配。

链接与开源信息

GitHub：github.com/reuAC/reFlo… （MIT 协议，完整训练代码 + 12 项可解释性实验）
HuggingFace：huggingface.co/reuAC/reFlo… （预训练权重，含 DOI）
论文 PDF：英文版 paper/paper.pdf，中文版 paper/paper-cn.pdf（均在 repo 内）

基于 nanoGPT 开发，OpenWebText 训练，4×T4 GPU，50k 步。欢迎讨论和复现。