17-Ollama本地部署：llama3.2模型的实战应用Ollama本地部署：llama3.2模型的实战应用前言 O

Ollama本地部署：llama3.2模型的实战应用

前言

Ollama让本地部署大模型变得简单。本文介绍如何使用Ollama部署和使用llama3.2模型。

适合读者： AI工程师、运维工程师

一、安装Ollama

# macOS/Linux
curl -fsSL https://ollama.ai/install.sh | sh

# 启动服务
ollama serve

二、下载模型

# 下载llama3.2:latest（对话模型）
ollama pull llama3.2:latest

# 下载nomic-embed-text（Embedding模型）
ollama pull nomic-embed-text

# 查看已下载的模型
ollama list

三、命令行使用

# 交互式对话
ollama run llama3.2:latest

# 单次问答
ollama run llama3.2:latest "什么是RAG？"

四、Python集成

from langchain_community.llms import Ollama

llm = Ollama(
    model="llama3.2:latest",
    base_url="http://localhost:11434",
    temperature=0.7,
    num_ctx=4096  # 上下文长度
)

# 同步调用
response = llm.invoke("介绍一下你自己")
print(response)

# 流式调用
for chunk in llm.stream("讲个笑话"):
    print(chunk, end="", flush=True)

# 异步流式
async for chunk in llm.astream("写一首诗"):
    print(chunk, end="", flush=True)

五、模型配置

# Modelfile
FROM llama3.2:latest

# 设置温度
PARAMETER temperature 0.7

# 设置上下文长度
PARAMETER num_ctx 8192

# 设置系统提示词
SYSTEM """
你是一个专业的客服助手。
请用友好、专业的语气回答用户问题。
"""

# 创建自定义模型
# ollama create my-assistant -f Modelfile

六、性能优化

# 使用量化模型（减少显存占用）
ollama pull qwen2.5:7b-q4_0

# 设置并发数
export OLLAMA_NUM_PARALLEL=4

# 设置最大加载模型数
export OLLAMA_MAX_LOADED_MODELS=2

下一篇预告： 《Prompt工程：从模板到动态组装的最佳实践》