模型仓库各种模型解读-官方模型、量化、蒸馏等

138 阅读5分钟

最近主包在做开发的时候,发现部署的Qwen3-VL-32B模型服务运行起来太占显存,公司的A100直接占了64G,卡上有时还要跑别的服务,基本会占个30G,如此一来,主包只能考虑把模型压缩,遂在魔塔上找了很多关于Qwen3-VL的量化模型,由此了解了一下社区里其他模型的种类和区别,并在此总结。

先说结论:开源社区模型主要包括以下几类:

image.png 这些名词排列交叉组合,可以组合出"模型-Instruct-GUFF"、"模型-Thinking-FP8"、"模型-AWQ-4bit"、"模型-MLX"等等一系列名字,代表其不同的场景适用。只要知道各个名词的意思,就可以理解这些开源模型主要可以做什么。

以魔塔社区搜索Qwen3-VL-32B举例 你可以搜出来以下模型,我分类一一讲解:

1. 官方模型

image.png 可以看到发布者都是“通义千问”官方

Instruct:是指令微调模型

Thinkink:包含思维链的模型

2. 量化模型

image.png 可以看到发布者是类似ElliotGao/QuanTrio的作者

AWQ:一种先进的4-bit或8-bit量化技术,性能损失小,推理速度快。是生产环境部署的首选方案之一。 可以看到第三排,作者对Qwen3-VL-32B的官方Thinking模型做了AWQ 4bit量化,第四排,作者对Instruct模型做了AWQ和bnb的4bit量化

GUFF:一种量化方法,使得大模型可以在没有强大GPU的普通电脑CPU上运行,适用于个人用户或本地部署。

下面这里做了AWQ的8bit量化image.png 这里是非标准位宽量化6bit/5bit image.png

3. 平台适用模型

image.png 这里是由LM工作室发布的适用于Apple公司设备的模型

MLX: 专为 Apple Silicon (Mac M1/M2/M3/M4芯片) 优化。如果你想在MacBook上高效运行模型,就应该找这个版本。

MNN:阿里巴巴自家的轻量级深度学习推理引擎,主要面向移动端和物联网(IoT)设备。如果你想把模型部署到手机App或嵌入式设备上,这是你要找的格式。

下面是千问MNN的模型: image.png

4. 浮点数精度模型

image.png image.png

FP8:是以8位浮点数加载的模型,可以属于量化也可以属于浮点数精度模型,因为其采用了量化模型里的思维。这个模型在NVIDIA H100/B100 类的显卡上能实现很高效的推理。

bf16:即16位脑浮点数,是一种专为深度学习设计的半精度格式,通过牺牲尾数精度来保持与FP32几乎相同的动态范围。这种特性使得模型从FP32转换为bf16时不易发生数值溢出,因此成为在现代AI加速器(如TPU和新一代GPU)上进行高性能推理和混合精度训练的首选格式。如果你的显存充足,或者对模型的原始精度有最高要求,bf16是最安全、最稳定的选择

FP32:即32位单精度浮点数,是深度学习模型训练和科学计算的基准数据类型。它占用显存是bf16的两倍,速度也没有优势。除了在一些科学计算或需要极高精度的场景下进行验证,几乎没有理由在生产环境中使用它来推理大模型。

5. 蒸馏模型

Qwen3-VL-32B截止目前还没有出现蒸馏模型,可以在魔塔上搜索“distil”,就可以找到一系列蒸馏模型。

用Qwen小模型学习Qwen大参数模型,就是同源蒸馏,模型架构相同。用类似deepseek的模型学习Qwen大参数模型,就是异源蒸馏,模型架构不同。

image.png image.png

6. 微调模型

image.png 微调模型大家应该很熟悉了,这样以train结尾的就是针对特定领域微调出来的,比如这个作者发布的关于circuit电路微调模型,应该是用来识别电路做一些科研的。做科研能微调出来模型,真有钱啊哈哈。

开源社区目前我发现的就是这些模型,欢迎补充!