规格化 & 非规格化
- 规格化:正常的浮点数表示范围。只要在规格化范围内,有效数字的位数是满的,算起来最准、最快。
- 非规格化:在规格化的精度位到达最低的时候,为了表示更小的数不被截断所做的扩展
规格化
- 规定:指数位 不全为 0 且 不全为 1(例如 FP16 中,)
- 公式:
- 隐藏位:公式中 前边的 是硬件自动补上的,不占内存。
- 精度表现:尾数 的每一位都代表有效精度,相对精度恒定。
- 适用场景:绝大多数正常的科学计算和模型权重
非规格化
- 规定:指数位 全为 0(例如 FP16 中,,且尾数 )
- 公式:
- 隐藏位变身:开头的隐藏位从 变成了 。这就是为了能表示比“最小规格化数”还要小的数。
- 指数固定:注意指数部分不再是 ,而是固定为 。这样做是为了和规格化数的最小值平滑衔接,没有断层。
- 适用场景:数值极度接近 时的“保命”阶段(渐进式下溢)。
上述定义的目的:平滑过渡
- 根据规格化的定义:最小的规格化数():。
- 根据非规格化的定义:M全为1的时候, 接近1,最大值
- 最大值:(接近 )。
- 最小值:。
- 当非规格化 全为1的时候, 接近1,最大值 ,完美衔接规格化最小值,实现数值平滑过渡
例子 (以FP16为例)
在 FP16 中,指数位 只有 5 位。
- 能够表示的二进制数是从
00000到11111(即 0 到 31)。 - Bias(偏置)固定为 15。
规格化数的 取值范围是 到
- 最大的规格化数():。
- 最小的规格化数():。
当 最小时,指数部分已经是 了。如果想表示比 更小的数, 必须变成 00000
如果没有“非规格化”处理:
- 当 时,公式依然是 。
- 那么能表示的最小值()是 。即所能表示的最小正数是 。比 更小的数(比如 )一个也表示不出来! 它们会全部直接跳到 0。这个 到 之间的真空,就是“空档"
非规格化补档:
当 时,隐藏位从 1. 变成 0.。
公式变为:(注意:为了平滑衔接,指数固定为 )。
可以利用尾数 继续往小了表示:
- ...
- (这是 FP16 的极限精度点)
平滑过渡
- 根据规格化的定义:最小的规格化数():。
- 根据非规格化的定义:M全为1的时候, 接近1,最大值
- 最大值:(接近 )。
- 最小值:。
- 当非规格化 全为1的时候, 接近1,最大值 ,完美衔接规格化最小值,既实现数值平滑过渡,又保证了可以继续表示更小的数
结论
- 如果不划分非规格化,FP16 只能表示到 就截断了; 有了非规格化,它能靠尾数前面的 一直撑到
浮点数数据精度格式
-
S:Sign bit,符号位。决定数字的正负(0 为正,1 为负)
-
E:Exponent,指数位。决定数字的范围(Range),即这个数能有多大或多小
-
M:Mantissa / Fraction,尾数位/精度位。决定数字的精度(Precision),即小数点后能精确到多少位
-
(符号部分):
- 如果 ,结果为正;
- 如果 ,结果为负。
-
(尾数部分):
- 为了节省空间,计算机默认二进制开头永远是
1.(比如 ),所以那个1不占位,只存后面的小数部分 。这就是为什么同样的位数,浮点数比定点数能表示更精细的小数。
- 为了节省空间,计算机默认二进制开头永远是
-
(指数部分):
-
是你在内存里看到的那个无符号整数。在 IEEE 754 标准中, 被预留给了“非规格化数”,所以规格化数的最小
-
(偏置值):为了让指数能表示负数(即非常小的数,如 ),需要减去一个中间数
- 对于 FP32,
- 对于 FP16,
-
常见格式
| 格式 | 总位数 (bit) | S (符号) | E (指数) | M (尾数/精度) | Bias (偏置) | 数值范围 (Range) | 核心用途 |
|---|---|---|---|---|---|---|---|
| FP32 | 32 | 1 | 8 | 23 | 127 | 非常广 | 训练基准 / 科学计算 |
| TF32 | 19 (内部) | 1 | 8 | 10 | 127 | 与 FP32 相同 | A100/H100 训练加速 |
| BF16 | 16 | 1 | 8 | 7 | 127 | 与 FP32 相同 | 大模型训练 (最稳) |
| FP16 | 16 | 1 | 5 | 10 | 15 | 窄 (最高 65504) | 混合精度训练 / 推理 |
| Int32 | 32 | 1 | - | 31 | - | 索引 / 计数 / 高压整数运算 | |
| Int16 | 16 | 1 | - | 15 | - | 信号处理 / 特定硬件压缩 | |
| Int8 | 8 | 1 | - | 7 | - | -128 ~ 127 | 模型推理量化 (省显存) |
-
FP32 (单精度):传统的“标杆”。8 位指数,23 位尾数。精度高,但太占空间。
-
FP16 (半精度):为了快。只有 5 位指数,10 位尾数。缺点是容易“溢出”(数字太大或太小就没法表示了)。
-
BF16 (Brain Float 16):Google 发明的。8位指数位,7 位尾数
- 重点: 牺牲了精度来换取和 FP32 一样的数值范围,这样训练时就不容易溢出,比 FP16 更稳。
-
TF32 (Tensor Float 32):NVIDIA A100 专用。它是 FP32 的“瘦身版”,保留了 FP32 的范围,但在计算内部截断了精度。
-
Int32 (整型):标准的 32 位整数。1 位符号位,31 位数值位。
- 特点:范围极大(约 亿),但在深度学习模型参数中很少直接使用,因为它太占空间且不支持小数点。
Int16 (短整型):16 位整数。1 位符号位,15 位数值位。
- 特点:范围在 之间。在某些特定的底层硬件加速或早期的音频处理中会用到,但在主流深度学习训练/推理中不如 Int8 普及。
-
Int8:8 位整数。主要用于推理(部署),因为模型训练好后,很多参数不需要那么精确也能跑出好结果
梯度归零问题
- 梯度归零:指在采用低精度浮点数(如 FP16)存储梯度时,由于数值过小,超出了该数据格式能表示的最小正值范围,导致梯度在表示或计算过程中被强制截断为 0。这会导致模型参数停止更新,训练陷入停滞。
原因
- 硬件维度的指数限制:FP16 的指数位仅有 5 位,配合偏置值(Bias=15),其能表示的最小规范化正数为 。
- 算法维度的精细化:FP16 的尾数位仅有 10 位。当数值接近 时,其最小可感知的变化步长(精度坍塌点)仅为 。
- 正则化压制:在 Word2Vec 或大型 Transformer 中,L2 正则化会强制将权重和梯度压制在极小范围内。当梯度值 时,在 FP16 体系下该数值无法被表示,直接映射为 0。
推导
- 公式:
- 最小规格化正数:为获得最小值,令指数位 ,尾数位 :
- 最小精度步长:在最小指数范围内,数值的精度由尾数 的最后一位决定。FP16 有 10 位尾数,最后一位的权重为 。
- 归零判定:若梯度计算结果 满足 ,则在 FP16 的位宽限制下,计算机无法区分 与 之间的差异,执行硬件截断
解决方案
- 损失放大:在反向传播前,将 Loss 乘以一个巨大的比例因子 (例如 ):
- 链式传导:根据链式法则,所有梯度都会随之放大 倍,从而将原本位于 以下的梯度推回至 FP16 的有效表示范围( 以上)。
- 权重更新前还原: 在更新权重 之前,先将梯度除以 还原,并在 FP32 格式下进行更新,确保优化步长不受影响
低精度的意义
- 高精度问题:高精度 = 费钱、耗电、慢
- 低精度优点
- 更少内存:显存占用减半,你可以跑更大的 Batch Size。
- 更低能耗:执行一次 FP32 乘法 的能量约为 3.7pJ,而 FP16 仅需 1.1pJ。由于乘法器电路复杂度与位数平方成正比,低精度不仅能节省 2x 的内存,更能带来近 4x 的能效比提升,是大规模集群训练的工业标准
- 更快的计算:单位时间内 GPU 能处理更多的运算(TFLOPS 更高)
精度选择
混合精度训练 (AMP)
- 全称:Automatic Mixed Precision
- 核心思想:能省则省,该准则准
操作
-
准备阶段:在内存中同时存在一套 FP32 权重(主权重)和一套 FP16 权重(计算用)。
-
前向传播 (Forward):使用 FP16 权重进行计算,得到 Loss。
-
损失缩放 (Loss Scaling) —— 关键步骤!:
-
在调用
loss.backward()之前,先将 Loss 乘以一个因子 (比如 65536)。 -
公式:。
-
-
反向传播 (Backward):
-
此时计算出的梯度全都被放大了 倍。
-
原本会变成 的微小梯度(比如 ),现在变成了 ,成功留在 FP16 的规格化安全区。
-
-
梯度还原 (Unscaling):
- 在更新权重前,把这些 FP16 梯度除以 ,还原回真实大小。
-
权重更新:
-
将还原后的梯度应用到那套 FP32 主权重上。
-
为什么用 FP32 更新? 因为梯度 学习率后的变化量非常小,只有 FP32 能精准捕捉这种细微的挪动。
-
A100/H100/V100
- 训练阶段
- 旧卡(如 V100),首选 FP16 混合精度。
- A100/H100 等新卡,强烈建议用 BF16,它更稳定,基本不需要调 Loss Scaling
- 推理阶段
- CV 任务:普遍能接受 Int8 量化。
- NLP/大模型:通常用 FP16 或 Int8/FP16 混合。