💎 深度专题：大模型训练稳定性与 FP8 混合精度革命在万亿参数模型的炼制过程中，**数值稳定性（Numerical

在万亿参数模型的炼制过程中，**数值稳定性（Numerical Stability）**是决定训练成败的生死线。本方案深度解析如何通过精度调度，在压榨硬件算力的同时确保模型不“炸仓”。

一、数值格式的进化：从 FP16 到 BF16

在大模型微调与预训练中，选择正确的浮点数格式是稳定性的第一步。

布局：1位符号，8位指数，7位尾数。
优势：其指数位长度与 FP32 完全一致。
结果：BF16 拥有与 FP32 相同的动态范围（量程）。训练时无需 Loss Scaling，几乎免疫了因数值范围溢出导致的训练崩溃，已成为当前大模型训练的工业标准。

混合精度训练的核心在于：计算用低精度提速，存储用高精度保准。

级别	名称	核心动作	适用场景
O1	混合模式	黑白名单制：GEMM（矩阵乘法）用低精度，Softmax/LayerNorm 等敏感算子强制 FP32。	生产首选，兼顾速度与精度。
O2	主权重模式	权重全量化：模型权重设为低精度，但在内存中保留一份 FP32 主权重 (Master Weights)。	显存受限场景，确保微小梯度更新不丢失。

关键机制：主权重更新 由于低精度（如 BF16）尾数太短，微小的梯度更新（如 $0.00001$ ）加到权重（如 $1.0$ ）上会因舍入误差直接归零。O2 通过在 FP32 副本上累加梯度，确保了每一轮训练的“微小进步”都能被记录下来。

DeepSeek-V3 成功跑通了 FP8 训练，将计算效率推向了物理极限。其核心并非简单的降位，而是对数学计算过程的重构。

DeepSeek 根据前向与反向传播的不同需求，使用了两种 FP8 格式：

这是 FP8 不损智商的核心。在进行矩阵乘法 $Y = W \cdot X$ 时：

FP8 表达能力弱，遇到“离群值”（极大的数值）会导致整体量化崩溃。

一句话总结：FP8 革命的精髓在于“用最粗糙的数字做最多的乘法，用最精确的容器装最后的总和”。