模型量化是什么?模型量化有什么作用?

516 阅读5分钟

1、什么是模型量化?

模型量化(Model Quantization)是指将深度学习模型中原本以高精度浮点数(如 FP32、FP16)存储和计算的权重、激活值等参数,转换为低比特宽度的数据类型(如INT8、INT4),以减少模型大小、降低计算开销,并提升推理速度。

图片

通俗地说,模型量化就是让模型用“更粗的刻度”来表示和计算数值,从而提升运行效率、节省资源。

本质: 连续浮点数 → 离散定点整数

应用: 模型压缩、边缘部署、低功耗推理

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

AI大模型全套学习资源【点击蓝字获取】

【2025最新】AI大模型全套学习籽料、咨询课程、1对1就业指导、技术进阶提升:LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等等等,从入门到进阶再到精通,超全面存下吧!

2、常见数据类型

图片

3、模型量化的数学原理

模型量化通过“比例缩放+偏移”实现将连续浮点区间映射为有限的离散整数区间。

线性量化(最常见的量化算法)

1 量化公式

图片

x_fp: 原始浮点值

x_int: 量化后的整数值(如INT8)

scale: 缩放因子

zero_point: 用于对齐浮点值0的整数偏移

2 如何计算 scale 和 zero_point?

假设 x (即待量化的权重或激活值)的数值范围为[x_min,x_max],期望将其映射到整数范围:[q_min,q_max]。

图片

图片

3 反量化公式

图片

反量化的作用: 把量化后的整数还原为近似的浮点值,确保精度损失在可接受范围内,并且在推理时某些模块需要通过反量化将数据恢复成浮点数,映射回原始的数值空间。

举个例子:

假设将[-1.0,1.0]的浮点区间映射到INT8,即[-128,127]

计算 scale 和 zero_point:

图片

现要对 x_fp = 0.5 进行量化:

图片

反量化:

图片

说明: 反量化只能近似还原原始值,存在微小误差(这里是0.00176),这也是量化产生精度损失的来源之一。

4、模型量化的作用

压缩模型体积,减少显存占用: 低精度表示可显著压缩型体积,如 FP32 转INT4 可将显存占用减少约87.5%。

加速推理性能: 整数运算在多数硬件上效率更高,同时减少内存带宽需求和通信延迟,显著提升吞吐量与响应速度。

图片

降低部署与运行成本: 显存与算力需求降低后,量化模型可在边缘设备上运行,延长电池续航、减少云端推理成本。

精度与性能的权衡: 量化会带来一定精度损失,但深度模型对小幅误差具备鲁棒性,合理设计可在几乎不影响准确率的前提下大幅加速模型。

推理计算对比: 未经量化 VS 经过量化

未经量化: 全浮点计算

图片

x_fp: 浮点输入

y_fp: 浮点输出

W_fp: 浮点权重

b: 浮点偏置

所有乘法和加法均为浮点运算,计算量大、速度慢。

经过量化: 主要计算转为整数

预处理:

图片

核心计算:

图片

全为整数运算

恢复输出:

图片

仅在结果还原阶段使用少量浮点乘法

总结

经过量化,大部分乘法为INT x INT,浮点数计算量大幅下降,推理显著提速。

5、模型量化的分类

图片

热门量化方法

AWQ(激活感知量化): 不仅考虑型权重,还考虑激活值并根据它们对模型输出的影响程度,为重要权重分配更高的精度适用于对性能敏感的任务。

GPTQ(通用后训练量化): 一种训练后仅量化权重的方法对模型权重逐层量化,支持极低精度的量化,尤其适合资源受限的部署环境。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

AI大模型全套学习资源【点击蓝字获取】

【2025最新】AI大模型全套学习籽料、咨询课程、1对1就业指导、技术进阶提升:LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等等等,从入门到进阶再到精通,超全面存下吧!