一些报错的环境经验:
- 跟量化相关(训练,导出),一般会跟cuda版本相关
- 推理加速(vLLM)
最通用的cuda版本,cuda 11.8, 12.1
vLLM对 cuda, torch, transformer都有依赖
nohup 可以把命令放后台执行
将hf模型转换为GGUF
git clone https://github.com/gerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt
python llama.cpp/convert_hf_to_gguf.py xxxxxxx
ollama加载自己的gguf
用ollama的效果不一样 模型推理的平台,模型的格式不同,都会对模型的效果有一定的影响,正常情况下是很小的。 原因在于,模型的本质是一个矩阵(一堆参数)。计算精度,计算方法依赖于模型推理平台,模型参数的保存方法。
pytorch/tensorflow对于GNN模型的计算方法支持是不同的。
模型一旦跨平台,精度就会就会有些许变化。但基本可以忽略不计。 如果设备变化了,也会有些许变化。
但一般要保证输出是可以用的。
- XTunner(微调)
- LLMDepliy (量化部署框架,号称比vLLM更快)
- RAG(llamaindex)
- 项目(chat)