Ollama 是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架,Ollama 能够在包括CPU、GPU在内的不同的硬件环境上,运行各种精度的GGUF格式大模型。
GGUF(Georgi Gerganov's Universal Format)是一种专为大型语言模型(LLM)设计的文件格式。这种格式的主要目标是提高模型的推理速度和优化内存占用,以适应资源受限的设备上部署大型语言模型的需求。
安装 Ollama
运行 Modelscope 上的模型部署
使用以下命令格式,例如:Qwen/Qwen2.5-7B-Instruct-GGUF,其中Qwen为username,Qwen2.5-7B-Instruct-GGUF为model 即模型名称。
ollama run modelscope.cn/{username}/{model}
在一个GGUF模型库中,一般也会有不同精度的模型文件存在,Ollama支持加载不同精度的GGUF模型,例如:
ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M
这里命令行最后的 :Q3_K_M 选项,就指定了使用Q3_K_M精度的GGUF模型版本,这个选项大小写不敏感。
Ollama 开放 API
Ollama部署之后,默认端口为:11434,可以通过访问API的方式访问大模型,例如:
curl -X POST http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "llama3",
"messages": [
{"role": "user", "content": "你好"}
],
"stream": false
}'
主要几个核心接口
/api/chat(POST):基于聊天格式的文本生成,支持多轮对话(通过messages参数传递历史消息),可配置流式输出、温度系数等参数。
/api/completions(POST):基础文本生成接口,兼容 OpenAI 的 Completion 格式,适用于单轮文本生成场景。
/api/generate(POST):高级生成接口,支持更多自定义参数(如最大 token 数、停止标记等),灵活性更高。
集成WebUI
Ollama 可以和Open WebUI进行集成,从而可以跟Ollama运行的大模型进行对话。
安装WebUI 需要 Python3.11版本,安装命令如下:
conda create -n myenv python=3.11
conda activate myenv
pip install open-webui
启动Open-WebUI
配置 export HF ENDPOINT=hf-mirror.com 和 export LOCAL FILES ONLY=False ,启动过程中会从huggingface上下载模型。
open-webui serve
安装完成后访问 http://localhost:8080即可。
本文来源微信公众号【全栈技术极客说】,原文链接:mp.weixin.qq.com/s/D8Qbsi6ct…