- LoRA模型合并
- 什么是GGUF
- LLama Factory量化微调训练
- 如何使用llama.cpp将模型转换为GGUF
- open-webui部署
训练过程中,会去做验证,需要调到验证也能过的阈值,才算是安全批次。
单卡中不要选DeepSpeed。是给多卡训练用的。
什么是GGUF
GGUF格式的全名是(GPT-Generated Unified Format),前身GGML(GPT-Generated Model Language). GGML是专门为了机器学习设计的张量库,最早可以追溯到2022/10。其目的是为了有一个单文件共享的格式,并且易于在不同架构的GPU和CPU上进行推理。但在后续的开发中,遇到了灵活性不足,相容性以及难以维护的问题。
可以理解为Ollama量身定做的文件格式。
量化,很依赖于硬件。 TensorT,量化最好,但是对小模型。
为什么要转GGUF
- 可扩展性
- 对mmap的兼容
- 易于使用
- 模型信息完整
- 有利于模型量化
大模型,未来的AI。
llama.cpp
是个工具包。不是单个cpp文件。
Open WebUI
不用自己开发前后端,都是有现成的。 直接支持gguf加载。
字典超出长度,可能是模型没转对。