量化框架对比

95 阅读1分钟

BMCook(面向大模型NLP)

TingHua 量化、剪枝、知识蒸馏 (只实现1个基本功能)

知识蒸馏: Hidden states MSE(业内通用机制)

DeepSpeed

框架重点关注大模型在GPU分布式训练、推理及压缩

  • 量化 PTQ (权重量化 + 激活量化) QAT (混合量化 A8W1 A8W2)

  • 剪枝

Layer Reduction Row pruning Head prunig

  • 蒸馏 (没有专门封装API)

PaddleSlim(Baidu)

量化、剪枝、蒸馏,重点关注CV领域

TextPrunner TextBrewer(HFL)

NeuralCompressor(Intel)

量化、剪枝、KD 重点关注CPU硬件

  • 量化

PTQ动态量化 PTQ静态量化 QAT SmoothQuant 混合精度 BF16 FP32 INT8

  • 剪枝

TODO: 1 Intel Pruning Pattern是否在硬件CPU实现 Unstrunctured,structured

Questions: 1 硬件CPU 2 上述压缩框架(BMCook等)基于Pytorch,支持反向传播,但mindspore压缩框架不支持反向

Mindspore
  • QAT
  • Pruning 空白 SCOP 算法
  • KD 空白 16种损失函数+19优化器