最近主包在做开发的时候,发现部署的Qwen3-VL-32B模型服务运行起来太占显存,公司的A100直接占了64G,卡上有时还要跑别的服务,基本会占个30G,如此一来,主包只能考虑把模型压缩,遂在魔塔上找了很多关于Qwen3-VL的量化模型,由此了解了一下社区里其他模型的种类和区别,并在此总结。
先说结论:开源社区模型主要包括以下几类:
这些名词排列交叉组合,可以组合出"模型-Instruct-GUFF"、"模型-Thinking-FP8"、"模型-AWQ-4bit"、"模型-MLX"等等一系列名字,代表其不同的场景适用。只要知道各个名词的意思,就可以理解这些开源模型主要可以做什么。
以魔塔社区搜索Qwen3-VL-32B举例 你可以搜出来以下模型,我分类一一讲解:
1. 官方模型
可以看到发布者都是“通义千问”官方
Instruct:是指令微调模型
Thinkink:包含思维链的模型
2. 量化模型
可以看到发布者是类似ElliotGao/QuanTrio的作者
AWQ:一种先进的4-bit或8-bit量化技术,性能损失小,推理速度快。是生产环境部署的首选方案之一。 可以看到第三排,作者对Qwen3-VL-32B的官方Thinking模型做了AWQ 4bit量化,第四排,作者对Instruct模型做了AWQ和bnb的4bit量化
GUFF:一种量化方法,使得大模型可以在没有强大GPU的普通电脑CPU上运行,适用于个人用户或本地部署。
下面这里做了AWQ的8bit量化:
这里是非标准位宽量化:6bit/5bit
3. 平台适用模型
这里是由LM工作室发布的适用于Apple公司设备的模型
MLX: 专为 Apple Silicon (Mac M1/M2/M3/M4芯片) 优化。如果你想在MacBook上高效运行模型,就应该找这个版本。
MNN:阿里巴巴自家的轻量级深度学习推理引擎,主要面向移动端和物联网(IoT)设备。如果你想把模型部署到手机App或嵌入式设备上,这是你要找的格式。
下面是千问MNN的模型:
4. 浮点数精度模型
FP8:是以8位浮点数加载的模型,可以属于量化也可以属于浮点数精度模型,因为其采用了量化模型里的思维。这个模型在NVIDIA H100/B100 类的显卡上能实现很高效的推理。
bf16:即16位脑浮点数,是一种专为深度学习设计的半精度格式,通过牺牲尾数精度来保持与FP32几乎相同的动态范围。这种特性使得模型从FP32转换为bf16时不易发生数值溢出,因此成为在现代AI加速器(如TPU和新一代GPU)上进行高性能推理和混合精度训练的首选格式。如果你的显存充足,或者对模型的原始精度有最高要求,bf16是最安全、最稳定的选择
FP32:即32位单精度浮点数,是深度学习模型训练和科学计算的基准数据类型。它占用显存是bf16的两倍,速度也没有优势。除了在一些科学计算或需要极高精度的场景下进行验证,几乎没有理由在生产环境中使用它来推理大模型。
5. 蒸馏模型
Qwen3-VL-32B截止目前还没有出现蒸馏模型,可以在魔塔上搜索“distil”,就可以找到一系列蒸馏模型。
用Qwen小模型学习Qwen大参数模型,就是同源蒸馏,模型架构相同。用类似deepseek的模型学习Qwen大参数模型,就是异源蒸馏,模型架构不同。
6. 微调模型
微调模型大家应该很熟悉了,这样以train结尾的就是针对特定领域微调出来的,比如这个作者发布的关于circuit电路微调模型,应该是用来识别电路做一些科研的。做科研能微调出来模型,真有钱啊哈哈。