Ollama 本地部署大模型

169 阅读2分钟

Ollama 是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架,Ollama 能够在包括CPU、GPU在内的不同的硬件环境上,运行各种精度的GGUF格式大模型。

GGUF(Georgi Gerganov's Universal Format)是一种专为大型语言模型(LLM)设计的文件格式。这种格式的主要目标是提高模型的推理速度和优化内存占用,以适应资源受限的设备上部署大型语言模型的需求。

安装 Ollama

ollama.com/上选择对应的操作系统安…

图片

运行 Modelscope 上的模型部署

使用以下命令格式,例如:Qwen/Qwen2.5-7B-Instruct-GGUF,其中Qwen为username,Qwen2.5-7B-Instruct-GGUF为model 即模型名称。

ollama run modelscope.cn/{username}/{model}

在一个GGUF模型库中,一般也会有不同精度的模型文件存在,Ollama支持加载不同精度的GGUF模型,例如:

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M

这里命令行最后的 :Q3_K_M 选项,就指定了使用Q3_K_M精度的GGUF模型版本,这个选项大小写不敏感。

Ollama 开放 API

Ollama部署之后,默认端口为:11434,可以通过访问API的方式访问大模型,例如:

curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model""llama3",
    "messages": [
      {"role""user""content""你好"}
    ],
    "stream"false
  }'

主要几个核心接口

/api/chat(POST):基于聊天格式的文本生成,支持多轮对话(通过messages参数传递历史消息),可配置流式输出、温度系数等参数。

/api/completions(POST):基础文本生成接口,兼容 OpenAI 的 Completion 格式,适用于单轮文本生成场景。

/api/generate(POST):高级生成接口,支持更多自定义参数(如最大 token 数、停止标记等),灵活性更高。

集成WebUI

Ollama 可以和Open WebUI进行集成,从而可以跟Ollama运行的大模型进行对话。

安装WebUI 需要 Python3.11版本,安装命令如下:

conda create -n myenv python=3.11
conda activate myenv 
pip install open-webui

启动Open-WebUI

配置 export HF ENDPOINT=hf-mirror.com 和 export LOCAL FILES ONLY=False ,启动过程中会从huggingface上下载模型。

open-webui serve

安装完成后访问 http://localhost:8080即可。

本文来源微信公众号【全栈技术极客说】,原文链接:mp.weixin.qq.com/s/D8Qbsi6ct…