引言:为什么开发者需要 Ollama?
想象一下:你正在开发一个需要 AI 功能的应用,但每次调用 API 都要担心网络延迟、数据隐私和调用成本。或者你想在飞机上、咖啡馆里离线调试 AI 功能,却发现没有网络寸步难行。
这就是 Ollama 的价值所在——它让你能在本地机器上轻松运行大语言模型(LLM),无需复杂的配置,一条命令就能启动。
Ollama 是一个开源的本地化大模型运行框架,专为开发者设计。它支持 Llama、Qwen、DeepSeek 等主流模型,提供 REST API 和 Python SDK,让你可以像调用云服务一样使用本地模型,但数据完全留在本地。
一、安装:一分钟搞定
macOS / Windows
直接下载安装包:
# macOS
curl -fsSL https://ollama.com/install.sh | sh
# 或访问官网下载:https://ollama.com/download
Linux(推荐用于服务器部署)
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 启动服务
ollama serve
安装完成后,Ollama 默认在 http://localhost:11434 运行。
二、运行你的第一个模型
Ollama 的命令设计非常简洁。运行模型只需:
# 运行 Llama 3.2(轻量级,适合大多数机器)
ollama run llama3.2
# 运行 Qwen 2.5(中文表现优秀)
ollama run qwen2.5
# 运行 DeepSeek-R1(推理能力强)
ollama run deepseek-r1
首次运行会自动下载模型。下载完成后,你就进入了一个交互式对话界面,可以直接和模型聊天。
常用命令速查:
| 命令 | 作用 |
|---|---|
ollama list | 查看已下载的模型 |
ollama pull <model> | 下载模型但不运行 |
ollama rm <model> | 删除模型 |
ollama ps | 查看运行中的模型 |
三、在代码中调用 Ollama
方式一:REST API
Ollama 提供了完整的 REST API,任何语言都可以调用:
# 生成文本
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "用 Python 写一个快速排序算法",
"stream": false
}'
# 对话模式
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "user", "content": "你好"}
]
}'
方式二:Python SDK(推荐)
安装 Python 库:
pip install ollama
基础用法:
import ollama
# 简单生成
response = ollama.generate(
model='llama3.2',
prompt='解释什么是递归函数'
)
print(response['response'])
# 对话模式
chat = ollama.chat(
model='llama3.2',
messages=[
{'role': 'user', 'content': '你好'}
]
)
print(chat['message']['content'])
流式输出(适合实时显示):
import ollama
stream = ollama.chat(
model='llama3.2',
messages=[{'role': 'user', 'content': '讲个笑话'}],
stream=True,
)
for chunk in stream:
print(chunk['message']['content'], end='', flush=True)
四、进阶:自定义模型配置
你可以通过 Modelfile 创建自定义模型配置:
# Modelfile
FROM llama3.2
# 系统提示词
SYSTEM """你是一个专业的 Python 开发助手,擅长编写简洁高效的代码。"""
# 参数设置
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
创建并运行:
ollama create my-assistant -f Modelfile
ollama run my-assistant
五、模型选择建议
| 模型 | 参数规模 | 适用场景 | 显存需求 |
|---|---|---|---|
| llama3.2 | 3B | 轻量级任务、快速响应 | 4GB+ |
| qwen2.5 | 7B | 中文对话、代码生成 | 8GB+ |
| deepseek-r1 | 7B/14B | 复杂推理、数学问题 | 8GB+/16GB+ |
| codellama | 7B | 代码补全、编程辅助 | 8GB+ |
提示: 如果显存有限,可以使用量化版本(如 qwen2.5:4b),在模型名后加 :4b 即可。
六、集成到开发工作流
在 VS Code 中使用
安装 Continue 插件,配置本地 Ollama:
{
"models": [
{
"title": "Local Llama",
"provider": "ollama",
"model": "llama3.2"
}
]
}
作为后端服务
启动 Ollama 服务后,你的应用可以像调用 OpenAI API 一样使用本地模型:
import openai
client = openai.OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意值即可
)
response = client.chat.completions.create(
model="llama3.2",
messages=[{"role": "user", "content": "Hello"}]
)
结语
Ollama 让本地运行大模型变得前所未有的简单。对于开发者来说,它不仅是保护数据隐私的解决方案,更是加速开发迭代的利器——无需网络、无需 API Key、零调用成本。
现在就开始你的本地 AI 之旅吧:
ollama run llama3.2
参考资源:
- Ollama 官网:ollama.com
- 模型库:ollama.com/library
- GitHub:github.com/ollama/olla…