📉 大模型量化 (Quantization) 全维度解析：从哲学到算力量化不仅是一种“压缩技术”，更是一场关于计算效率

量化不仅是一种“压缩技术”，更是一场关于计算效率与信息精度的深刻博弈。其核心思想是：用更粗糙但更高效的数值系统，去模拟复杂的智能行为。

一、量化的数学哲学：映射与格点化

量化的本质是将神经网络中连续的浮点数（Floating Point）映射到离散的整数（Integer）空间。

公式核心： $Q = \text{clamp}\left(\text{round}\left(\frac{R}{S} + Z\right); Q_{min}, Q_{max}\right)$ $R_{approx} = (Q - Z) \times S$
- $R$ (Real)：原始浮点值。
- $Q$ (Quantized)：量化后的整数。
- $S$ (Scale)：缩放因子（步长）。
- $Z$ (Zero-point)：零点偏移，确保浮点 0 对应整数格点。

获取这两个参数的过程被称为 校准 (Calibration)，它是量化精度的“生死线”。

要算 $S$ 和 $Z$ ，首先要确定原始数据的最小值 ( $\alpha$ ) 和最大值 ( $\beta$ )：

Min-Max (全域法)：直接取 $[\text{min}, \text{max}]$ 。虽然保留了所有信息，但极易受“离群值”（Outliers）干扰，导致中间大部分数值分辨率极低。
Entropy / KL 散度法：寻找一个截断阈值，使得量化前后的信息熵丢失最小（忽略极个别偏离巨大的噪点）。
Percentile (分位数法)：忽略最极端的 0.1% 的点，取 99.9% 处的值作为边界。

一旦确定了 $[\alpha, \beta]$ ，即可根据量化位数（如 $INT8$ 的范围是 $[-128, 127]$ ）计算：

真相纠正：量化推理不是“还原成浮点数再算”，而是在整数域直接战斗。

带宽红利 (Bandwidth)：从显存搬运 $INT4$ 数据比 $FP16$ 快 4 倍，极大缓解了“内存墙”问题。
算力红利 (Integer Arithmetic)：
- 直接对战：显卡 Tensor Core 直接执行 $INT4 \times INT4$ 运算。
- 底层优势：整数运算单元电路简单，单周期内的吞吐量远高于浮点单元。
反量化时机：
- 大规模的乘加运算都在整数域（累加器）中完成。
- 延迟还原：只有在这一层计算彻底结束、准备进入下一层前，才进行一次反量化乘法 $R = (Q - Z) \times S$ 。

普通的线性映射对智商损耗较大，进阶算法引入了补偿机制：

一句话总结：量化是用局部的精度舍入（Rounding Error），换取全局计算效率的指数级飞跃。