GPT-2 中的残差权重初始化GPT-2 中的残差权重初始化 1. 概述在深度残差网络中，每一层的输出都会被加到其输入

在深度残差网络中，每一层的输出都会被加到其输入上。如果不对这些层的权重进行特殊处理，随着网络深度的增加，残差路径上累加的信号方差可能会不断增大，导致数值不稳定和训练发散。

为了解决这个问题，GPT-2 的作者在论文中提出了一种针对残差连接路径上的层进行特殊缩放的初始化方法。

在 GPT-2 的一个 Decoder Block 中，有两个子层的输出会直接被加到残差流（Residual Stream）上。因此，这两层的权重就是我们所说的“残差权重”：

GPT-2 的权重初始化分为两个步骤：一个通用的标准初始化，和一个针对上述“残差权重”的特殊缩放。

模型中的所有权重（包括嵌入层、QKV 投影层、FFN第一层以及残差层）首先都会从一个均值为 0、标准差为 0.02 的正态分布中进行初始化。

这是模型参数的基础初始化值。

在完成通用初始化之后，GPT-2 会专门对“残差权重”进行一次额外的缩放操作。

缩放公式：

根据 GPT-2 论文的描述，这些残差层的权重会被乘以一个缩放因子：

\frac{1}{\sqrt{N}}

其中， $N$ 是模型中残差层（或说残差连接）的总数量。

在一个标准的 GPT-2 模型中，每个 Transformer Block（n_layer）都包含 2 个残差连接（一个在自注意力后，一个在 FFN 后）。
因此，总的残差层数量 $N = 2 \times n_{\text{layer}}$ 。

例如:

对于 gpt2-base，它有 12 个 Block (n_layer=12)，所以 $N = 2 \times 12 = 24$ 。缩放因子就是 $\frac{1}{\sqrt{24}}$ 。
对于 gpt2-large，它有 36 个 Block (n_layer=36)，所以 $N = 2 \times 36 = 72$ 。缩放因子就是 $\frac{1}{\sqrt{72}}$ 。

这个操作通常是在代码层面，将这些特定层的权重张量乘以该缩放因子来完成。

核心目的：控制残差流中的方差累积。

问题: 在一个深度网络中，残差流 $x$ 会经过多个 Block 的累加： $x_{\text{final}} = x_{\text{initial}} + \text{output}_1 + \text{output}_2 + \dots + \text{output}_N$ 。如果每个 $\text{output}_i$ 的方差是 $\sigma^2$ ，那么在理想情况下，最终输出的方差会累积到 $N \times \sigma^2$ 。当 $N$ 很大时，方差会爆炸，导致训练不稳定。
解决方案: 通过将每个残差层的权重乘以 $\frac{1}{\sqrt{N}}$ ，其输出的方差大约会被缩放到原来的 $\frac{1}{N}$ （因为方差与权重的平方成正比）。
效果: 这样，当 $N$ 个残差输出累加时，总的方差大约保持在 $\sigma^2$ 的水平（ $N \times \frac{\sigma^2}{N} = \sigma^2$ ），从而保证了无论网络有多深，流经主干道的信息信号强度都能保持稳定。

下表总结了 GPT-2 中不同层的初始化方式：

层 / 参数	标准初始化	特殊缩放 (仅限残差层)
嵌入层 (wte, wpe)	$\mathcal{N}(0, 0.02^2)$	不适用
注意力 QKV 投影 (c_attn)	$\mathcal{N}(0, 0.02^2)$	不适用
注意力输出投影 (c_proj)	$\mathcal{N}(0, 0.02^2)$	是，权重乘以 $\frac{1}{\sqrt{2 \times n_{\text{layer}}}}$
FFN 第一个线性层 (c_fc)	$\mathcal{N}(0, 0.02^2)$	不适用
FFN 第二个线性层 (c_proj)	$\mathcal{N}(0, 0.02^2)$	是，权重乘以 $\frac{1}{\sqrt{2 \times n_{\text{layer}}}}$
所有偏置 (bias)	初始化为 0	不适用

结论: GPT-2 的残差权重初始化是一种精巧的设计，它通过在标准正态初始化之后，对特定的残差层权重应用一个与网络深度相关的缩放因子，成功地稳定了深度 Transformer 模型的训练过程，是其能够有效扩展到更多层数的关键技术之一。