百度百舸基于昆仑芯算力平台构建了一套覆盖「模型量化 - 量化推理 - 硬件加速」的端到端量化支持体系,实现模型层、框架层与硬件层的全栈协同优化。
目前,百度百舸已完成 Qwen、DeepSeek、GLM、MiMo、Kimi 等主流系列模型的量化适配,并交付到多个企业级客户的生产环境,在真实业务场景中实现了推理成本的显著优化与服务吞吐的大幅提升。
1. 端到端量化体系,从模型量化到高性能推理落地
大模型推理进入规模化部署阶段,推理效率与资源成本成为关键瓶颈。千亿参数模型在 FP16 精度下的显存占用有数百 GB,动辄需要 8-16 张高端加速卡。量化——这种为大模型「瘦身减负」的技术,可在保持模型核心能力的前提下,将 FP16/BF16 模型压缩至原始大小的 25%~50%,节省大量显存占用,将推理速度提升 30%~50% 以上。于企业而言,这意味着:同样的硬件投入,可部署 2 / 4 倍规模的模型,或者支撑数倍到数十倍以上的并发用户。
然而,在技术落地过程,量化方案的有效性受多重约束:
-
首先是模型量化过程的精度失真风险,粗放的量化策略极易引发语义偏移甚至模型能力的「崩塌」;
-
其次是框架侧量化推理的落地难度大,权重存储格式多样、量化模型来源不同等问题要求推理框架具备自适配与高效部署的能力;
-
最后是性能增益流失,若缺乏底层硬件的原生支持,频繁的数据重排/搬运与反量化开销将吞噬计算收益。
对此,在昆仑芯算力平台上,百度混合云团队联合昆仑芯团队构建了从模型量化、框架推理到硬件加速的端到端量化体系,实现量化模型精度损失可控、推理框架自适应支持,以及显著的量化加速收益。具体而言:
- 模型层:在模型量化过程中,聚焦于打造昆仑芯深度适配的自研量化工具链,协同采用多种前沿量化微调算法,实现高精度、高效率的模型量化;
- 框架层:在框架侧的量化推理中,实现对主流 INT8/INT4 量化模型的推理落地,支持 LLMs、VLMs 等全系列模型的高效部署和「开箱即用」;
- 硬件层:基于昆仑芯 XPU 的计算特性,定制化地开发了一系列高性能量化专用算子,为框架侧推理部署提供底层加速保障。
依托这一体系化的能力布局,不仅实现了量化流程的标准化与自动化,更显著提升了大模型在昆仑芯平台上的推理效率、稳定性与规模化部署能力,为量化技术从算法创新到产业应用的快速转化提供了坚实的工程化支撑。
2. 模型量化工具链:芯模协同,精度无损
在大模型量化部署流程中,如何将浮点 (FP16/BF16) 模型高效、高质量地转化为适用于昆仑芯片的量化 (INT8/INT4) 模型,是整个量化推理链路中的关键起点。
为此,我们构建了一套面向昆仑芯硬件深度优化的模型量化工具链,该工具链不仅集成了 SmoothQuant、AWQ、GPTQ 等业界主流的前沿量化算法,支持对称/非对称、动态/静态以及多种量化粒度配置等,更深度融合昆仑芯架构特性,在几乎无损模型精度的前提下,充分利用昆仑芯 INT8 整型计算算力,实现精度与推理效率的协同最优。
围绕量化模型在实际部署中对高精度、深度适配硬件格式、且高性能的核心需求,该工具链在设计上重点关注三个方面:
2.1. 多算法精准量化:针对模型特性的差异化量化策略
模型量化是以精度为前提,通过将模型权重、激活值的数值位宽从 FP16/BF16 等高比特浮点转换为 INT8/INT4 等低比特整型的技术。然而,不同模型的参数分布特征各异——权重分布不均匀、激活值也因层间差异和异常输入存在极端离群值。这使得「一刀切」的低比特映射极易导致不可逆的精度崩坏与语义偏离。
因此,模型量化工具链构建了一套多算法协同的完整量化流程:先依据模型特征(规模、激活分布、权重敏感度)自动匹配 RTN、SmoothQuant、AWQ/GPTQ 等算法完成基础量化,再针对精度问题启动误差分析,通过混合精度量化等手段进行量化调优,在确保推理加速的同时,最大程度还原模型原始精度。
- 算法自适应匹配:为应对不同模型在规模、激活分布与权重敏感度等方面的差异,工具链内置智能决策引擎,可自动识别模型特征并匹配最优量化算法,在保障精度的同时显著提升量化效率。具体匹配策略如下:
- 模型规模大:超大规模模型(如 DeepSeek 系列)优先采用 RTN 算法,无需额外训练或校准,直接对权重进行量化,分钟级完成模型压缩,适用于需要快速验证或频繁迭代的场景;
- 激活分布离散:针对激活存在长尾分布的模型(如 GLM 系列),启用 SmoothQuant,通过在权重和激活之间进行「平滑」变换,使得激活值的动态范围被压缩,而权重相应放大,提升量化稳定性;
- 权重敏感型:对权重扰动敏感的模型(如 Qwen 系列)采用 AWQ/GPTQ,通过保护对输出影响更大的「关键权重」来降低精度损失,以及逐层重构误差的方式,实现近乎无损的模型压缩。
- 误差感知及混合精度量化:当基础量化后精度未达预期,工具链自动执行逐层误差分析,精准定位敏感层,例如,在 MiMo 模型量化过程中,工具链分析出第 5 层的 gate_up 投影层对量化精度异常敏感,便将该层精度回退至 FP16/BF16,其他层保持 INT8 量化。通过混合精度量化策略,以极小的时间成本和性能代价换取精度达标,避免盲目回退导致的加速收益流失。
2.2. 芯片深度适配:昆仑芯专用量化格式优化
在低比特量化(如 INT4)场景中,传统方案通常将多个量化值打包存储(如 8 个 INT4 打包存储为 1 个 INT32),但这种存储方式,与昆仑芯并行计算单元(如 warp/SIMD lane)的固定访问粒度、数据消费模式存在结构性不匹配,导致推理前必须在模型加载阶段执行耗时的解包与权重重排,拖慢服务启动。
为此,我们在量化工具链中设计了针对昆仑芯专用的量化数据打包存储格式,在量化模型导出阶段即完成权重布局重排 —— 按照算子计算的最佳访问顺序对量化权重进行打包,使存储格式天然对齐硬件访问模式,实现了工具链和框架侧算子的端到端协同设计优化。
优化后的量化权重在服务启动时可直接加载至设备内存并投入计算,避免了加载阶段的布局转换,并降低了运行时转换开销,从而有效的提升吞吐性能,形成了面向昆仑芯硬件特性的高效量化存储格式。
2.3. 高性能静态量化探索:离线校准与补偿优化
在大模型工程化部署中,动态量化虽有助于维持模型精度,但其在推理阶段需实时统计激活分布并插入额外量化算子,带来显著的计算开销,制约了推理效率。为此,量化工具链重点引入静态量化技术,通过离线校准预先确定激活参数,有效消除推理时的动态统计依赖,显著提升推理速度。
针对静态量化在大模型场景下面临的精度损失挑战,我们设计了融合多场景数据的精细化离线校准方案,并结合多元量化策略(如 LoRA 权重)进行补偿优化,在保障推理性能的同时有效收敛精度差距。
面向未来,工具链将持续深化模型结构与硬件特性的协同优化,针对稀疏模型、多模态大模型等新兴架构提供差异化静态量化支持,打造更高效、更易规模化落地的模型量化方案。
3. 框架侧量化推理:全场景落地,自适应执行
获取「高保真」量化模型后,我们在框架侧实现了基于昆仑芯 XPU 芯片的量化推理落地:在 vLLM-Kunlun Plugin 中,我们构建了面向多位宽量化模型的量化推理能力,推理框架能够自适应多种量化格式及 MoE/Dense 等各类模型结构;同时,针对不同来源的量化模型,推理框架可自动采用最佳适配架构,实现「开箱即用」的高效量化推理。用户无需修改一行代码,即可无缝加载量化模型,享受量化推理加速与显存节省的双重收益。
3.1. INT8 与 INT4 的量化推理落地
为应对量化格式多样化带来的工程挑战,我们基于 vLLM-Kunlun Plugin 构建了覆盖 INT8、INT4 的全栈量化推理能力。
3.1.1. 主流大模型 INT8 量化推理,突破吞吐性能
近年来,随着主流 AI 芯片提供对 INT8 的专用计算单元及成熟算子支持,大模型推理逐步从以 FP16/BF16 为核心的浮点计算范式转向以 INT8 为代表的整型计算范式。
为此,我们在 vLLM-Kunlun Plugin 上落地了高性能的 INT8 量化推理。基于 Compressed-Tensors 的 INT8 量化格式,我们构建了 KunlunScaledMM 矩阵乘算子,实现了静态/动态、对称/非对称等多种量化推理方式,并通过高效调度昆仑芯 XPU 的 INT8 计算内核,在显著降低访存带宽开销的同时,极大提升了计算密度与整体吞吐性能。
此外,面对全 INT8 量化带来的精度损失,由于开源 vLLM 对 MoE 模型的混合精度支持存在局限,我们在 vLLM-Kunlun Plugin 中开发了专家模块差异化位宽的混合精度机制,在保障精度的前提下实现了 INT8 在大规模 MoE 模型上的稳定落地,并释放出 INT8 推理带来的整体吞吐提升优势。
如图所示,在 Qwen3-235B-A22B 模型的吞吐测试中,当上下文长度为 16k 时,相比 FP16 推理,INT8 混合量化推理在各并发区间取得平均约 1.5× 的吞吐提升,显著释放了硬件算力潜能。
3.1.2. 超大模型 INT4 量化推理,显存效率跃升
面向更大参数量的超大模型(如 Deepseek-3.2、GLM-5、Kimi-K2.5),业界通常会采用 INT4 量化方案解决显存容量瓶颈。
对此,我们在 vLLM-Kunlun Plugin 上基于 AWQ 与 GPTQ 两类主流权重量化算法,提供面向该场景的 W4A16 量化推理能力。
-
首先在权重加载阶段,我们实现了对 INT4 量化后的权重快速加载并重排,将显存占用降低至原来的 1/4,让原本受限于显存容量的超大模型得以正常加载和运行;
-
其次在推理阶段,我们构建了完整的「反量化-执行」推理链条,通过对 INT4 权重执行高效反量化(Dequant)操作,将其还原为浮点格式(FP16/BF16)参与后续计算,完成高精度推理流程闭环,实现显存效率与推理质量的平衡。
这一能力落地,使得「借助 INT4 量化极限压缩显存占用」的理论方案可实际部署于生产环境中。在此基础上,推理引擎能够在固定显存预算下容纳更大的 KV cache 空间。在相同硬件配置下,框架可在同一硬件资源下部署更多模型实例或提升单实例并发规模,从而提升整体推理并发能力与部署密度,为大规模推理服务的成本压缩提供了关键支撑。
3.2. 量化模型的自适应执行
当前量化推理系统面临的核心挑战在于量化模型权重格式缺乏统一规范:不同量化算法(如 AWQ、GPTQ、Compressed-Tensors)在权重存储方式上存在差异(如 INT4 权重打包存储顺序方面不统一)。这导致推理框架在接入不同来源的模型时,往往需要开发复杂的定制化适配逻辑,极大地增加了工程维护成本。
为了打破这种格式屏障,我们在 vLLM-kunlun Plugin 上构建了一套分层适配与解析体系,确保了各种来源的量化模型在昆仑芯平台上的高效兼容与执行。
-
第三方量化模型的「通用化」适配机制:针对第三方量化模型,在模型加载阶段,vLLM-Kunlun Plugin 会进行权重重排、权重对齐、和内存布局转换,使其满足昆仑芯量化 Kernel 对输入张量格式与最佳访存模式的要求。该机制显著降低了量化模型的接入复杂度,用户可直接将标准的 AWQ、GPTQ、Compressed-Tensors 格式的模型接入 vLLM-Kunlun Plugin 推理框架运行。
-
自量化模型的「零转换」加载:对于采用昆仑芯量化工具链生成的权重,框架可在加载阶段进行兼容性校验并直接完成映射,无需额外的格式转换过程,从而有效缩短模型加载与服务启动时间。此外,在量化阶段已根据昆仑芯硬件的向量化计算单元完成数据布局优化,算子无需在前向传播时进行权重重排,显著提升了推理吞吐与计算效率。
当前,该套量化推理能力已在 vLLM-Kunlun Plugin 中落地实现并开源发布,为多格式、多结构模型提供统一的高性能量化推理支持。面向未来,该能力将持续向 SGLang 等框架拓展,形成覆盖主流推理框架的统一量化执行体系。
4. 算子级量化加速:原生支持,机制优化
在大模型推理场景中,量化策略的实际收益不仅取决于数值位宽精度的设计,更高度依赖于底层算子是否能够对量化计算模式进行原生、高效地执行。对此,我们构建了覆盖多种量化范式的专有算子体系,并利用融合算子进一步规避访存瓶颈,支撑 vLLM-Kunlun Plugin 在量化推理中精准、快速地调用算子、驱动硬件。
4.1. 原生基石:构建全范式量化算子体系
高效的量化推理,首先依赖于底层算子对量化数据格式的原生识别与执行能力。若缺乏专有算子支撑,通用算子在面对量化模型时将陷入「无法直接计算」的困境,被迫频繁插入反量化与精度转换操作,导致推理流程割裂、效率大幅折损。为此,我们构建了覆盖静态/动态量化、AWQ、GPTQ 等主流量化范式的原生算子体系,包括 static/dynamic_quant_int8、cutlass_scaled_mm、awq_dequantize、gptq_shuffle 等核心算子。这些算子是实现量化推理的必备基础设施,确保量化模型能够以低位宽数据格式在硬件端直接执行,从底层打通量化算法到指令集适配的完整路径,为上层性能优化提供稳固且高效的硬件执行基础。
4.2. 极致优化:融合算子释放硬件潜能
在原生算子基础上,我们进一步构建量化融合算子生态,将反量化、矩阵乘与后处理逻辑深度集成,形成 awq_gemm、gptq_gemm、wna16_gemm 等一体化高阶算子。通过大幅减少内存访问频次与算子调度碎片,有效规避「算子碎片化」瓶颈,使推理路径更加紧凑流畅。该融合架构在精度可控前提下,全面释放量化模型在吞吐、时延与资源利用率上的潜力,为大规模部署提供强劲性能支撑。
5. 结语
百度百舸基于昆仑芯 XPU 构建的这套从量化模型产出、量化推理执行到量化推理加速的完整工程体系,使不同模型结构、不同量化方案能够在昆仑芯平台上形成统一、可复用、可规模化的落地路径。
面向未来,随着模型规模持续扩大与推理场景不断复杂化,我们将持续推进量化与 KV Cache、LORA、MTP、PD 分离等关键推理优化机制的协同优化,使量化作为基础能力参与到推理系统的关键路径中,支撑高并发与长上下文等复杂推理场景的整体性能提升,并推动量化工具链与多框架生态的深度融合,降低不同推理系统之间的迁移与接入成本。