Ollama 快速上手指南：开发者的本地 LLM 利器引言：为什么开发者需要 Ollama？想象一下：你正在开发一个需

引言：为什么开发者需要 Ollama？

想象一下：你正在开发一个需要 AI 功能的应用，但每次调用 API 都要担心网络延迟、数据隐私和调用成本。或者你想在飞机上、咖啡馆里离线调试 AI 功能，却发现没有网络寸步难行。

这就是 Ollama 的价值所在——它让你能在本地机器上轻松运行大语言模型（LLM），无需复杂的配置，一条命令就能启动。

Ollama 是一个开源的本地化大模型运行框架，专为开发者设计。它支持 Llama、Qwen、DeepSeek 等主流模型，提供 REST API 和 Python SDK，让你可以像调用云服务一样使用本地模型，但数据完全留在本地。

一、安装：一分钟搞定

macOS / Windows

直接下载安装包：

# macOS
curl -fsSL https://ollama.com/install.sh | sh

# 或访问官网下载：https://ollama.com/download

Linux（推荐用于服务器部署）

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

安装完成后，Ollama 默认在 http://localhost:11434 运行。

二、运行你的第一个模型

Ollama 的命令设计非常简洁。运行模型只需：

# 运行 Llama 3.2（轻量级，适合大多数机器）
ollama run llama3.2

# 运行 Qwen 2.5（中文表现优秀）
ollama run qwen2.5

# 运行 DeepSeek-R1（推理能力强）
ollama run deepseek-r1

首次运行会自动下载模型。下载完成后，你就进入了一个交互式对话界面，可以直接和模型聊天。

常用命令速查：

命令	作用
`ollama list`	查看已下载的模型
`ollama pull <model>`	下载模型但不运行
`ollama rm <model>`	删除模型
`ollama ps`	查看运行中的模型

三、在代码中调用 Ollama

方式一：REST API

Ollama 提供了完整的 REST API，任何语言都可以调用：

# 生成文本
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用 Python 写一个快速排序算法",
  "stream": false
}'

# 对话模式
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "你好"}
  ]
}'

方式二：Python SDK（推荐）

安装 Python 库：

pip install ollama

基础用法：

import ollama

# 简单生成
response = ollama.generate(
    model='llama3.2',
    prompt='解释什么是递归函数'
)
print(response['response'])

# 对话模式
chat = ollama.chat(
    model='llama3.2',
    messages=[
        {'role': 'user', 'content': '你好'}
    ]
)
print(chat['message']['content'])

流式输出（适合实时显示）：

import ollama

stream = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '讲个笑话'}],
    stream=True,
)

for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

四、进阶：自定义模型配置

你可以通过 Modelfile 创建自定义模型配置：

# Modelfile
FROM llama3.2

# 系统提示词
SYSTEM """你是一个专业的 Python 开发助手，擅长编写简洁高效的代码。"""

# 参数设置
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

创建并运行：

ollama create my-assistant -f Modelfile
ollama run my-assistant

五、模型选择建议

模型	参数规模	适用场景	显存需求
llama3.2	3B	轻量级任务、快速响应	4GB+
qwen2.5	7B	中文对话、代码生成	8GB+
deepseek-r1	7B/14B	复杂推理、数学问题	8GB+/16GB+
codellama	7B	代码补全、编程辅助	8GB+

提示： 如果显存有限，可以使用量化版本（如 qwen2.5:4b），在模型名后加 :4b 即可。

六、集成到开发工作流

在 VS Code 中使用

安装 Continue 插件，配置本地 Ollama：

{
  "models": [
    {
      "title": "Local Llama",
      "provider": "ollama",
      "model": "llama3.2"
    }
  ]
}

作为后端服务

启动 Ollama 服务后，你的应用可以像调用 OpenAI API 一样使用本地模型：

import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意值即可
)

response = client.chat.completions.create(
    model="llama3.2",
    messages=[{"role": "user", "content": "Hello"}]
)

结语

Ollama 让本地运行大模型变得前所未有的简单。对于开发者来说，它不仅是保护数据隐私的解决方案，更是加速开发迭代的利器——无需网络、无需 API Key、零调用成本。

现在就开始你的本地 AI 之旅吧：

ollama run llama3.2

参考资源：

Ollama 官网：ollama.com
模型库：ollama.com/library
GitHub：github.com/ollama/olla…