模型仓库各种模型解读-官方模型、量化、蒸馏等对目前的社区里的开源模型进行一个分类科普，能更好了解这些模型的作用，来历，应

最近主包在做开发的时候，发现部署的Qwen3-VL-32B模型服务运行起来太占显存，公司的A100直接占了64G，卡上有时还要跑别的服务，基本会占个30G，如此一来，主包只能考虑把模型压缩，遂在魔塔上找了很多关于Qwen3-VL的量化模型，由此了解了一下社区里其他模型的种类和区别，并在此总结。

先说结论：开源社区模型主要包括以下几类：

这些名词排列交叉组合，可以组合出"模型-Instruct-GUFF"、"模型-Thinking-FP8"、"模型-AWQ-4bit"、"模型-MLX"等等一系列名字，代表其不同的场景适用。只要知道各个名词的意思，就可以理解这些开源模型主要可以做什么。

以魔塔社区搜索Qwen3-VL-32B举例你可以搜出来以下模型，我分类一一讲解：

1. 官方模型

可以看到发布者都是“通义千问”官方

Instruct：是指令微调模型

Thinkink：包含思维链的模型

2. 量化模型

可以看到发布者是类似ElliotGao/QuanTrio的作者

AWQ：一种先进的4-bit或8-bit量化技术，性能损失小，推理速度快。是生产环境部署的首选方案之一。 可以看到第三排，作者对Qwen3-VL-32B的官方Thinking模型做了AWQ 4bit量化，第四排，作者对Instruct模型做了AWQ和bnb的4bit量化

GUFF：一种量化方法，使得大模型可以在没有强大GPU的普通电脑CPU上运行，适用于个人用户或本地部署。

下面这里做了AWQ的8bit量化：这里是非标准位宽量化：6bit/5bit

3. 平台适用模型

这里是由LM工作室发布的适用于Apple公司设备的模型

MLX: 专为 Apple Silicon (Mac M1/M2/M3/M4芯片) 优化。如果你想在MacBook上高效运行模型，就应该找这个版本。

MNN：阿里巴巴自家的轻量级深度学习推理引擎，主要面向移动端和物联网（IoT）设备。如果你想把模型部署到手机App或嵌入式设备上，这是你要找的格式。

下面是千问MNN的模型：

4. 浮点数精度模型

FP8：是以8位浮点数加载的模型，可以属于量化也可以属于浮点数精度模型，因为其采用了量化模型里的思维。这个模型在NVIDIA H100/B100 类的显卡上能实现很高效的推理。

bf16：即16位脑浮点数，是一种专为深度学习设计的半精度格式，通过牺牲尾数精度来保持与FP32几乎相同的动态范围。这种特性使得模型从FP32转换为bf16时不易发生数值溢出，因此成为在现代AI加速器（如TPU和新一代GPU）上进行高性能推理和混合精度训练的首选格式。如果你的显存充足，或者对模型的原始精度有最高要求，bf16是最安全、最稳定的选择

FP32：即32位单精度浮点数，是深度学习模型训练和科学计算的基准数据类型。它占用显存是bf16的两倍，速度也没有优势。除了在一些科学计算或需要极高精度的场景下进行验证，几乎没有理由在生产环境中使用它来推理大模型。

5. 蒸馏模型

Qwen3-VL-32B截止目前还没有出现蒸馏模型，可以在魔塔上搜索“distil”，就可以找到一系列蒸馏模型。

用Qwen小模型学习Qwen大参数模型，就是同源蒸馏，模型架构相同。用类似deepseek的模型学习Qwen大参数模型，就是异源蒸馏，模型架构不同。

6. 微调模型

微调模型大家应该很熟悉了，这样以train结尾的就是针对特定领域微调出来的，比如这个作者发布的关于circuit电路微调模型，应该是用来识别电路做一些科研的。做科研能微调出来模型，真有钱啊哈哈。

模型仓库各种模型解读-官方模型、量化、蒸馏等