[笔记][大模型学习]16-Qwen模型打包部署(HF转GGUF&ollama+open_webui部署)

103 阅读1分钟

一些报错的环境经验:

  • 跟量化相关(训练,导出),一般会跟cuda版本相关
  • 推理加速(vLLM)

最通用的cuda版本,cuda 11.8, 12.1

vLLM对 cuda, torch, transformer都有依赖

nohup 可以把命令放后台执行

将hf模型转换为GGUF

git clone https://github.com/gerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt

python llama.cpp/convert_hf_to_gguf.py xxxxxxx

ollama加载自己的gguf

用ollama的效果不一样 模型推理的平台,模型的格式不同,都会对模型的效果有一定的影响,正常情况下是很小的。 原因在于,模型的本质是一个矩阵(一堆参数)。计算精度,计算方法依赖于模型推理平台,模型参数的保存方法。

pytorch/tensorflow对于GNN模型的计算方法支持是不同的。

模型一旦跨平台,精度就会就会有些许变化。但基本可以忽略不计。 如果设备变化了,也会有些许变化。

但一般要保证输出是可以用的。

  • XTunner(微调)
  • LLMDepliy (量化部署框架,号称比vLLM更快)
  • RAG(llamaindex)
  • 项目(chat)