Ollama 本地部署大模型Ollama 是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架，Ollama

Ollama 是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架，Ollama 能够在包括CPU、GPU在内的不同的硬件环境上，运行各种精度的GGUF格式大模型。

GGUF(Georgi Gerganov's Universal Format)是一种专为大型语言模型(LLM)设计的文件格式。这种格式的主要目标是提高模型的推理速度和优化内存占用，以适应资源受限的设备上部署大型语言模型的需求。

安装 Ollama

运行 Modelscope 上的模型部署

使用以下命令格式，例如：Qwen/Qwen2.5-7B-Instruct-GGUF，其中Qwen为username，Qwen2.5-7B-Instruct-GGUF为model 即模型名称。

ollama run modelscope.cn/{username}/{model}

在一个GGUF模型库中，一般也会有不同精度的模型文件存在，Ollama支持加载不同精度的GGUF模型，例如:

ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M

这里命令行最后的 :Q3_K_M 选项，就指定了使用Q3_K_M精度的GGUF模型版本，这个选项大小写不敏感。

Ollama 开放 API

Ollama部署之后，默认端口为：11434，可以通过访问API的方式访问大模型，例如:

curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3",
    "messages": [
      {"role": "user", "content": "你好"}
    ],
    "stream": false
  }'

主要几个核心接口

/api/chat（POST）：基于聊天格式的文本生成，支持多轮对话（通过messages参数传递历史消息），可配置流式输出、温度系数等参数。

/api/completions（POST）：基础文本生成接口，兼容 OpenAI 的 Completion 格式，适用于单轮文本生成场景。

/api/generate（POST）：高级生成接口，支持更多自定义参数（如最大 token 数、停止标记等），灵活性更高。

集成WebUI

Ollama 可以和Open WebUI进行集成，从而可以跟Ollama运行的大模型进行对话。

安装WebUI 需要 Python3.11版本，安装命令如下：

conda create -n myenv python=3.11
conda activate myenv 
pip install open-webui

启动Open-WebUI

配置 export HF ENDPOINT=hf-mirror.com 和 export LOCAL FILES ONLY=False ，启动过程中会从huggingface上下载模型。

open-webui serve

安装完成后访问 http://localhost:8080即可。

本文来源微信公众号【全栈技术极客说】，原文链接：mp.weixin.qq.com/s/D8Qbsi6ct…