Ollama 快速上手指南:开发者的本地 LLM 利器

21 阅读3分钟

引言:为什么开发者需要 Ollama?

想象一下:你正在开发一个需要 AI 功能的应用,但每次调用 API 都要担心网络延迟、数据隐私和调用成本。或者你想在飞机上、咖啡馆里离线调试 AI 功能,却发现没有网络寸步难行。

这就是 Ollama 的价值所在——它让你能在本地机器上轻松运行大语言模型(LLM),无需复杂的配置,一条命令就能启动。

Ollama 是一个开源的本地化大模型运行框架,专为开发者设计。它支持 Llama、Qwen、DeepSeek 等主流模型,提供 REST API 和 Python SDK,让你可以像调用云服务一样使用本地模型,但数据完全留在本地。


一、安装:一分钟搞定

macOS / Windows

直接下载安装包:

# macOS
curl -fsSL https://ollama.com/install.sh | sh

# 或访问官网下载:https://ollama.com/download

Linux(推荐用于服务器部署)

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

安装完成后,Ollama 默认在 http://localhost:11434 运行。


二、运行你的第一个模型

Ollama 的命令设计非常简洁。运行模型只需:

# 运行 Llama 3.2(轻量级,适合大多数机器)
ollama run llama3.2

# 运行 Qwen 2.5(中文表现优秀)
ollama run qwen2.5

# 运行 DeepSeek-R1(推理能力强)
ollama run deepseek-r1

首次运行会自动下载模型。下载完成后,你就进入了一个交互式对话界面,可以直接和模型聊天。

常用命令速查:

命令作用
ollama list查看已下载的模型
ollama pull <model>下载模型但不运行
ollama rm <model>删除模型
ollama ps查看运行中的模型

三、在代码中调用 Ollama

方式一:REST API

Ollama 提供了完整的 REST API,任何语言都可以调用:

# 生成文本
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用 Python 写一个快速排序算法",
  "stream": false
}'

# 对话模式
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "你好"}
  ]
}'

方式二:Python SDK(推荐)

安装 Python 库:

pip install ollama

基础用法:

import ollama

# 简单生成
response = ollama.generate(
    model='llama3.2',
    prompt='解释什么是递归函数'
)
print(response['response'])

# 对话模式
chat = ollama.chat(
    model='llama3.2',
    messages=[
        {'role': 'user', 'content': '你好'}
    ]
)
print(chat['message']['content'])

流式输出(适合实时显示):

import ollama

stream = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '讲个笑话'}],
    stream=True,
)

for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

四、进阶:自定义模型配置

你可以通过 Modelfile 创建自定义模型配置:

# Modelfile
FROM llama3.2

# 系统提示词
SYSTEM """你是一个专业的 Python 开发助手,擅长编写简洁高效的代码。"""

# 参数设置
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

创建并运行:

ollama create my-assistant -f Modelfile
ollama run my-assistant

五、模型选择建议

模型参数规模适用场景显存需求
llama3.23B轻量级任务、快速响应4GB+
qwen2.57B中文对话、代码生成8GB+
deepseek-r17B/14B复杂推理、数学问题8GB+/16GB+
codellama7B代码补全、编程辅助8GB+

提示: 如果显存有限,可以使用量化版本(如 qwen2.5:4b),在模型名后加 :4b 即可。


六、集成到开发工作流

在 VS Code 中使用

安装 Continue 插件,配置本地 Ollama:

{
  "models": [
    {
      "title": "Local Llama",
      "provider": "ollama",
      "model": "llama3.2"
    }
  ]
}

作为后端服务

启动 Ollama 服务后,你的应用可以像调用 OpenAI API 一样使用本地模型:

import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值即可
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Hello"}]
)

结语

Ollama 让本地运行大模型变得前所未有的简单。对于开发者来说,它不仅是保护数据隐私的解决方案,更是加速开发迭代的利器——无需网络、无需 API Key、零调用成本。

现在就开始你的本地 AI 之旅吧:

ollama run llama3.2

参考资源: