Mac 本地部署 Ollama 并运行 Gemma 4 模型

0 阅读2分钟

一、什么是 Ollama

Ollama 是一个本地运行大语言模型的工具,支持 macOS / Linux / Windows。它把模型下载、运行、API 服务全部封装好,一条命令就能跑起来。

二、安装 Ollama

方式一:官网下载(推荐)

  1. 打开 ollama.com/download
  2. 点击 Download for macOS
  3. 下载后解压,将 Ollama.app 拖入「应用程序」文件夹
  4. 双击打开,菜单栏会出现 Ollama 图标,表示服务已启动

image.png

方式二:Homebrew 安装

brew install ollama

安装完成后启动服务:

ollama serve

验证安装

ollama --version

看到版本号即安装成功。

三、下载并运行 Gemma 4 模型

一条命令下载并运行

ollama run gemma4

首次运行会自动下载模型(约 5GB),下载完成后直接进入对话。之后再运行则跳过下载,直接启动。

输入问题即可聊天,输入 /bye 退出。

查看已下载的模型

ollama list

四、Ollama 常用命令

命令说明
ollama serve启动 Ollama 服务(桌面版自动启动)
ollama pull <模型名>下载模型
ollama run <模型名>运行模型并进入对话
ollama list查看已下载的模型列表
ollama rm <模型名>删除模型
ollama show <模型名>查看模型详细信息
ollama ps查看当前运行中的模型

五、通过 API 调用

Ollama 启动后会在 localhost:11434 提供 HTTP API。

健康检查

curl http://localhost:11434

返回 Ollama is running 表示正常。

非流式对话

curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [{"role": "user", "content": "你好"}],
    "stream": false
  }'

流式对话

curl -X POST http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [{"role": "user", "content": "介绍一下你自己"}],
    "stream": true
  }'

查看可用模型

curl http://localhost:11434/api/tags

六、运行状态

模型非常吃内存,目前一开始回复就会将我的mac内存吃满,我的是16g的macmini

image.png