本地部署 Ollama 大模型：零成本开启 AI 开发之旅本地部署 Ollama 大模型：零成本开启 AI 开发之旅简

本地部署 Ollama 大模型：零成本开启 AI 开发之旅

发布日期：2026 年 4 月 11 日
标签：Ollama、AI、LLM、本地部署、大模型

简介

你是否也想拥有一个完全属于自己的 AI 助手？无需担心隐私泄露，无需支付订阅费用，本地部署 Ollama 让你轻松使用开源大模型。本文将带你从零开始搭建 Ollama 环境，并介绍如何使用它进行本地开发。

什么是 Ollama？

Ollama 是一个开源的本地 LLM 运行框架，支持各种主流大模型，如 Qwen3.5、Llama3、Mistral 等。它基于 Docker 和 Rust 构建，提供简单的命令行接口和 Web UI。

环境准备

1. 安装 Docker

# 检查 Docker 是否已安装
docker --version

# 未安装时，MacOS 用户可以从 Docker Desktop 官网下载：
# https://www.docker.com/products/docker-desktop

2. 安装 Ollama

# macOS
brew install ollama

# Linux (Ubuntu/Debian)
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户请访问官网下载安装包：
# https://ollama.com/download

3. 启动服务

# 启动 Ollama
ollama serve

# 后台运行（可选）
ollama serve &

# 查看已安装模型
ollama list

# 拉取模型（默认是 CPU 优化版本）
ollama pull qwen3.5
ollama pull llama3.2:3b
ollama pull mistral

使用 Ollama

1. 命令行交互

# 开始对话
ollama run qwen3.5

# 退出对话
Ctrl+D 或输入 /exit

# 指定版本
ollama run qwen3.5:7b

2. 设置环境变量

# 设置上下文长度（默认 4096）
OLLAMA_NUM_GPU_LAYERS=0 ollama serve

# 设置最大并发请求数
OLLAMA_MAX_CONCURRENT_REQUESTS=4 ollama serve

本地开发

1. Python API 使用

import requests
from langchain_ollama import ChatOllama

# 创建聊天实例
llm = ChatOllama(model="qwen3.5", base_url="http://localhost:11434")

# 进行对话
response = llm.invoke("你好，请介绍一下 Ollama")
print(response)

2. JavaScript/TypeScript 使用

// 使用 OpenAI 格式的 Node 客户端
const response = await fetch("http://localhost:11434/api/generate", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "qwen3.5",
    prompt: "你好，请介绍一下 Ollama",
    stream: false
  })
});

const result = await response.json();
console.log(result.response);

3. VS Code 扩展

安装 Ollama 插件，即可在编辑器中直接使用本地模型进行代码辅助、文档生成等。

配置建议

1. 模型选择

模型名称	适用场景	内存需求
qwen3.5:7b	通用对话、代码	~7GB
qwen3.5:14b	复杂任务、多模态	~14GB
llama3.2:3b	轻量设备、快速响应	~3GB
mistral	欧洲用户推荐	~4GB

2. 性能优化

使用 --num-gpu-layers 参数指定 GPU 层数
设置 OLLAMA_MAX_LOADED_MODELS 控制并发模型数量
使用 OLLAMA_NUM_PARALLEL 设置并发请求数

常见问题

1. 模型加载失败

# 清理缓存
ollama rm <model-name>
ollama pull <model-name>

# 重启服务
ollama serve

2. 内存不足

# 使用更小的模型
ollama pull llama3.2:3b
ollama run llama3.2:3b

3. 网络问题

# 设置代理
OLLAMA_ORIGINS="http://localhost" ollama serve

总结

Ollama 是一个简单、高效的本地 LLM 运行框架，无需复杂配置即可快速投入使用。支持多种主流模型，提供丰富的 API 接口，适合开发者和个人用户。

建议：定期更新 Ollama 和模型版本，以获得最佳性能。

作者：AI 技术爱好者
许可协议：MIT License
联系方式：[your-email@example.com]

推荐阅读：

本文档基于实际部署经验整理，持续更新中。