本地部署 Ollama 大模型:零成本开启 AI 开发之旅

0 阅读3分钟

本地部署 Ollama 大模型:零成本开启 AI 开发之旅

发布日期:2026 年 4 月 11 日
标签:OllamaAILLM本地部署大模型


简介

你是否也想拥有一个完全属于自己的 AI 助手?无需担心隐私泄露,无需支付订阅费用,本地部署 Ollama 让你轻松使用开源大模型。本文将带你从零开始搭建 Ollama 环境,并介绍如何使用它进行本地开发。

什么是 Ollama?

Ollama 是一个开源的本地 LLM 运行框架,支持各种主流大模型,如 Qwen3.5Llama3Mistral 等。它基于 Docker 和 Rust 构建,提供简单的命令行接口和 Web UI。


环境准备

1. 安装 Docker

# 检查 Docker 是否已安装
docker --version

# 未安装时,MacOS 用户可以从 Docker Desktop 官网下载:
# https://www.docker.com/products/docker-desktop

2. 安装 Ollama

# macOS
brew install ollama

# Linux (Ubuntu/Debian)
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户请访问官网下载安装包:
# https://ollama.com/download

3. 启动服务

# 启动 Ollama
ollama serve

# 后台运行(可选)
ollama serve &

# 查看已安装模型
ollama list

# 拉取模型(默认是 CPU 优化版本)
ollama pull qwen3.5
ollama pull llama3.2:3b
ollama pull mistral

使用 Ollama

1. 命令行交互

# 开始对话
ollama run qwen3.5

# 退出对话
Ctrl+D 或输入 /exit

# 指定版本
ollama run qwen3.5:7b

2. 设置环境变量

# 设置上下文长度(默认 4096)
OLLAMA_NUM_GPU_LAYERS=0 ollama serve

# 设置最大并发请求数
OLLAMA_MAX_CONCURRENT_REQUESTS=4 ollama serve

本地开发

1. Python API 使用

import requests
from langchain_ollama import ChatOllama

# 创建聊天实例
llm = ChatOllama(model="qwen3.5", base_url="http://localhost:11434")

# 进行对话
response = llm.invoke("你好,请介绍一下 Ollama")
print(response)

2. JavaScript/TypeScript 使用

// 使用 OpenAI 格式的 Node 客户端
const response = await fetch("http://localhost:11434/api/generate", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "qwen3.5",
    prompt: "你好,请介绍一下 Ollama",
    stream: false
  })
});

const result = await response.json();
console.log(result.response);

3. VS Code 扩展

安装 Ollama 插件,即可在编辑器中直接使用本地模型进行代码辅助、文档生成等。


配置建议

1. 模型选择

模型名称适用场景内存需求
qwen3.5:7b通用对话、代码~7GB
qwen3.5:14b复杂任务、多模态~14GB
llama3.2:3b轻量设备、快速响应~3GB
mistral欧洲用户推荐~4GB

2. 性能优化

  • 使用 --num-gpu-layers 参数指定 GPU 层数
  • 设置 OLLAMA_MAX_LOADED_MODELS 控制并发模型数量
  • 使用 OLLAMA_NUM_PARALLEL 设置并发请求数

常见问题

1. 模型加载失败

# 清理缓存
ollama rm <model-name>
ollama pull <model-name>

# 重启服务
ollama serve

2. 内存不足

# 使用更小的模型
ollama pull llama3.2:3b
ollama run llama3.2:3b

3. 网络问题

# 设置代理
OLLAMA_ORIGINS="http://localhost" ollama serve

总结

Ollama 是一个简单、高效的本地 LLM 运行框架,无需复杂配置即可快速投入使用。支持多种主流模型,提供丰富的 API 接口,适合开发者和个人用户。

建议:定期更新 Ollama 和模型版本,以获得最佳性能。


作者:AI 技术爱好者
许可协议:MIT License
联系方式:[your-email@example.com]


推荐阅读


本文档基于实际部署经验整理,持续更新中。