Transformer 的稳健基石：残差连接与 Pre-LN 深度解析在训练拥有成百上千层的深层神经网络（如 GPT-4

在训练拥有成百上千层的深层神经网络（如 GPT-4, DeepSeek）时，最核心的挑战不是算力不够，而是梯度如何稳定地传回底层。残差连接与 Pre-LN 结构的组合，正是解决这一难题的工业标准。

一、残差连接 (Residual Connection)：梯度的“保命线”

残差连接（也叫 Shortcut）的原理非常简单：在每一层的非线性计算（Attention 或 MLP）之外，建立一条**恒等映射（Identity Mapping）**的通路。

数学表达： $x_{out} = x_{in} + F(x_{in})$ 其中 $F(x)$ 代表该层的计算支路（Attention 或 MLP）。

打破“传声筒”效应：在深层网络中，信号会随着层数加深而逐渐模糊。残差连接让原始信号 $x$ 可以直接“跳级”，保证了底层信息能直达顶层。
解决梯度消失/爆炸：在反向传播时，根据求导法则： $\frac{\partial(x + F(x))}{\partial x} = 1 + F'(x)$ 。那个常数 “1” 保证了即使支路发生剧烈波动，主干道依然能维持稳定的梯度传导。

在 Transformer 的每一层里，我们需要加入 Layer Normalization (LN) 来稳定数值。LN 放的位置（残差加法的前还是后）决定了模型的生死。

这是原始 Transformer 论文（2017）的设计。

流程：输入 -> 计算 -> 相加 -> LN
结构图： $x_{next} = \text{LayerNorm}(x + F(x))$
致命伤：LN 位于残差连接的外部出口。这意味着它直接修改了主干道的数值分布。在反向传播时，梯度必须穿过 LN 算子。由于 LN 导数包含“除以标准差”的操作，梯度会被层层累乘放大，导致梯度爆炸。

这是目前所有主流大模型（Llama, GPT, DeepSeek）的选择。

流程：输入 -> LN -> 计算 -> 最后相加
结构图： $x_{next} = x + F(\text{LayerNorm}(x))$
优势：LN 位于计算支路内部。
- 主干道透明化：残差主干道变成了一条没有任何阻碍的“高速公路”。
- 梯度直达：梯度回传时可以绕过支路上的 LN，顺着主干道那个“+1”路径原封不动地传到底层。这让训练极度稳定。

在一个标准的 Decoder Block 中，这种 “Pre-LN + 残差” 的结构会连续出现两次，分别保护 Attention 和 MLP：

第一阶段 (Attention 子层)：
- x = x + Attention(RMSNorm(x))
- 作用：在稳定数值的前提下，让 Token 交换上下文信息。
第二阶段 (MLP/MoE 子层)：
- x = x + MLP(RMSNorm(x))
- 作用：在稳定数值的前提下，让 Token 提取参数中的知识。

Pre-LN 架构通过将 LayerNorm 移至计算支路的起始位置，成功“解放”了残差连接的主干道。这种设计让梯度能够以线性的、不受阻碍的方式在深层网络中穿梭，是大语言模型能够走向“巨型化”和“深层化”的最关键工程改进之一。