[笔记][大模型学习]15-Qwen模型打包部署(Lora模型合并&转GGUF模型部署)

96 阅读1分钟
  • LoRA模型合并
  • 什么是GGUF
  • LLama Factory量化微调训练
  • 如何使用llama.cpp将模型转换为GGUF
  • open-webui部署

训练过程中,会去做验证,需要调到验证也能过的阈值,才算是安全批次。

单卡中不要选DeepSpeed。是给多卡训练用的。

什么是GGUF

GGUF格式的全名是(GPT-Generated Unified Format),前身GGML(GPT-Generated Model Language). GGML是专门为了机器学习设计的张量库,最早可以追溯到2022/10。其目的是为了有一个单文件共享的格式,并且易于在不同架构的GPU和CPU上进行推理。但在后续的开发中,遇到了灵活性不足,相容性以及难以维护的问题。

可以理解为Ollama量身定做的文件格式。

量化,很依赖于硬件。 TensorT,量化最好,但是对小模型。

为什么要转GGUF

  • 可扩展性
  • 对mmap的兼容
  • 易于使用
  • 模型信息完整
  • 有利于模型量化

大模型,未来的AI。

llama.cpp

是个工具包。不是单个cpp文件。

Open WebUI

不用自己开发前后端,都是有现成的。 直接支持gguf加载。

字典超出长度,可能是模型没转对。