大模型压缩技术（以huggingface和ollama为例）大模型的压缩技术（量化、剪枝、蒸馏）以huggingface

最近在模型部署的时候发现一个问题，就是按理来说一般7B的大模型需要占用14GB左右的内存，但是我在使用ollama进行deepseek模型部署的时候发现，使用

ollama pull deepseek-r1:7b

命令下载下来的模型只有4.7GB,感觉很奇怪，于是我就通过网上查阅相关资料了解到ollama默认下载的模型是4-bit的量化版本，做了模型的压缩，降低了部署成本。

现就查询到的相关资料进行总结，关于大模型的压缩方案。首先大模型压缩是解决模型部署成本、效率和资源限制的关键技术，尤其在边缘设备或实时场景中尤为重要。以下是关于大模型压缩的原因、方法，以及 Hugging Face 和 Ollama 平台上模型大小差异的案例对比分析。

资源限制
- 存储与内存：大模型参数量庞大（如deepseek-r1有671B参数），普通设备难以加载。
- 计算开销：推理延迟高，对算力要求苛刻，增加部署成本。
- 能耗：移动端或物联网设备无法承受高能耗。
效率需求
- 实时性：如对话、翻译等场景需低延迟响应。
- 成本控制：云端推理按需计费，模型压缩可降低API调用成本。
硬件适配
- 适配手机、嵌入式芯片（如NPU、GPU）的低精度计算单元。

原理：将高精度参数（FP32）转换为低精度（INT8/INT4），减少内存占用和计算量。
类型：
- 静态量化：离线校准量化参数（如PyTorch的torch.quantization）。
- 动态量化：推理时动态调整量化参数（如Hugging Face的bitsandbytes）。
效果：模型大小减少50-75%，推理速度提升2-4倍。

平台	模型版本	压缩方法	模型大小	适用场景
Hugging Face	deepseek-r1-671B (原始)	无	~707GB	云端服务器、高性能计算
Ollama	deepseek-r1-671 (Ollama版)	4-bit量化(Q4_K_M)	~404GB	小公司GPU部署推理

差异分析：

目标场景不同
- Hugging Face：面向开发者提供通用模型，平衡精度与压缩率，支持灵活微调。
- Ollama：专注本地轻量化部署，追求极致压缩（牺牲部分精度和扩展性）。
技术栈差异
- Hugging Face：依赖PyTorch生态，量化工具（如AutoGPTQ）兼容性强。
- Ollama：定制化压缩流水线（如混合剪枝+量化），优化本地运行效率。
硬件适配
- Ollama针对CPU/低端GPU优化，Hugging Face更适配高性能GPU。