[笔记][大模型学习]16-Qwen模型打包部署（HF转GGUF&ollama+open_webui部署）一些报错的环境

一些报错的环境经验：

最通用的cuda版本，cuda 11.8, 12.1

vLLM对 cuda, torch, transformer都有依赖

nohup 可以把命令放后台执行

将hf模型转换为GGUF

git clone https://github.com/gerganov/llama.cpp.git
pip install -r llama.cpp/requirements.txt

python llama.cpp/convert_hf_to_gguf.py xxxxxxx

用ollama的效果不一样模型推理的平台，模型的格式不同，都会对模型的效果有一定的影响，正常情况下是很小的。原因在于，模型的本质是一个矩阵（一堆参数）。计算精度，计算方法依赖于模型推理平台，模型参数的保存方法。

pytorch/tensorflow对于GNN模型的计算方法支持是不同的。

模型一旦跨平台，精度就会就会有些许变化。但基本可以忽略不计。如果设备变化了，也会有些许变化。

但一般要保证输出是可以用的。