BMCook(面向大模型NLP)
TingHua 量化、剪枝、知识蒸馏 (只实现1个基本功能)
知识蒸馏: Hidden states MSE(业内通用机制)
DeepSpeed
框架重点关注大模型在GPU分布式训练、推理及压缩
-
量化 PTQ (权重量化 + 激活量化) QAT (混合量化 A8W1 A8W2)
-
剪枝
Layer Reduction Row pruning Head prunig
- 蒸馏 (没有专门封装API)
PaddleSlim(Baidu)
量化、剪枝、蒸馏,重点关注CV领域
TextPrunner TextBrewer(HFL)
NeuralCompressor(Intel)
量化、剪枝、KD 重点关注CPU硬件
- 量化
PTQ动态量化 PTQ静态量化 QAT SmoothQuant 混合精度 BF16 FP32 INT8
- 剪枝
TODO: 1 Intel Pruning Pattern是否在硬件CPU实现 Unstrunctured,structured
Questions: 1 硬件CPU 2 上述压缩框架(BMCook等)基于Pytorch,支持反向传播,但mindspore压缩框架不支持反向
Mindspore
- QAT
- Pruning 空白 SCOP 算法
- KD 空白 16种损失函数+19优化器