Ollama部署GGUF格式的量化模型

176 阅读1分钟

Ollama部署GGUF格式量化的模型

0. 安装ollama

0.1 配置代理

  • 在自己的电脑上运行以下命令,配置ssh端口转发,将本机的代理映射到服务器

    ssh -N -R 7890:localhost:7890 -p 22 root@10.10.10.10
    
    • 其中,-N参数表示不执行远程命令,-R参数表示将本地的7890端口映射到远程服务器的7890端口,-p参数表示指定ssh的端口号,root@10.10.10.10表示远程服务器的地址。
  • 查看代理是否配置成功

    netstat -tunlp | grep 7890
    
  • 在服务器上配置代理

    export http_proxy=http://127.0.0.1:7890
    export https_proxy=http://127.0.0.1:7890
    

0.2 安装ollama

curl URL_ADDRESScurl https://ollama.com/install.sh | sh

0.3 取消代理配置

unset http_proxy
unset https_proxy

1. 下载模型

modelscope download --model unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF DeepSeek-R1-Distill-Qwen-32B-Q8_0.gguf --local_dir .

2. 启动ollama服务

nohup ollama serve > /tmp/ollama.log 2>&1 &

3. 转换成ollama支持的格式

3.1 新建ModelFile

FROM /root/deepseek/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf

3.2 转换

ollama create deepseek-r1:32B-Q4 --file ./ModelFile

4. 启动模型

ollama run deepseek-r1:32B-Q4