- ✅ 前提条件 系统已安装 CUDA,且版本需与 Ollama 兼容。 以 NVIDIA 显卡为例,驱动版本需 ≥ 452.39(官方要求)。 Ollama 支持 计算能力 ≥ 5.0 的 Nvidia GPU,具体兼容性请参考:CUDA GPU 列表。 其他显卡支持情况见官方文档:GPU 支持说明。
如果系统中有多个 NVIDIA GPU,并且希望限制 Ollama 使用其中的一部分卡,可以通过设置CUDA_VISIBLE_DEVICES环境变量实现。变量值为以逗号分隔的 GPU UUID列表。 Nvidia官方关于CUDA环境变量的参考链接地址:docs.nvidia.com/cuda/cuda-c…
GPU的UUID可以通过使用以下命令查看
nvidia-smi -L
得到结果类似下图
假设只想使用第一张卡(UUID 为 GPU-a5e9bdeb-d1fb-a747-0f79-b95543d9e626),则在系统环境变量中添加:
设置完成后运行大模型
ollama run alibayram/hunyuan:0.5b
然后再起一个命令行窗口并执行 docker ps 查看就可以看到 processor里面有cpu与gpu运行百分比
⚠️ 注意事项
如果模型比较大而显存比较小也可能导致全部使用CPU
❗关于非官方环境变量的说明
网上有的文章中还需设置环境变量OLLAMA_GPU_LAYER值为CUDA,但是在ollama官网并没有找到相关信息;
豆包反馈的需要设置OLLAMA_CUDA环境变量同样在官网文档中未找到,可能是ollama版本升级后导致的,也可能是大模型的幻觉导致的,建议以官方文档为准