[笔记][大模型学习]15-Qwen模型打包部署（Lora模型合并&转GGUF模型部署）LoRA模型合并什么是GGUF

LoRA模型合并
什么是GGUF
LLama Factory量化微调训练
如何使用llama.cpp将模型转换为GGUF
open-webui部署

训练过程中，会去做验证，需要调到验证也能过的阈值，才算是安全批次。

单卡中不要选DeepSpeed。是给多卡训练用的。

什么是GGUF

GGUF格式的全名是(GPT-Generated Unified Format)，前身GGML(GPT-Generated Model Language). GGML是专门为了机器学习设计的张量库，最早可以追溯到2022/10。其目的是为了有一个单文件共享的格式，并且易于在不同架构的GPU和CPU上进行推理。但在后续的开发中，遇到了灵活性不足，相容性以及难以维护的问题。

可以理解为Ollama量身定做的文件格式。

量化，很依赖于硬件。 TensorT,量化最好，但是对小模型。

为什么要转GGUF

可扩展性
对mmap的兼容
易于使用
模型信息完整
有利于模型量化

大模型，未来的AI。

llama.cpp

是个工具包。不是单个cpp文件。

Open WebUI

不用自己开发前后端，都是有现成的。直接支持gguf加载。

字典超出长度，可能是模型没转对。