Mac Mini M1 + Ollama + Gemma 4 + Claude Code 一站式部署指南Mac Mini

Mac Mini + Ollama + Gemma 4 + Claude Code 一站式部署指南

一、为什么选择 Gemma 4

Google 2026 年 4 月发布的 Gemma 4 开源模型家族，有几个让我决定本地部署的理由：

参数量够大，本地能跑

E4B 版本 80 亿总参数、45 亿有效参数，31B 版本在 AIME 2026 数学推理基准达到 89.2% ，LiveCodeBench 代码测试 80.0% ，开源模型中位居前列。E4B 只要 4.6GB 显存，Mac Mini M1 16GB 完全能跑。

原生多模态：文本 + 图片 + 音频

同级别的开源模型大多只支持纯文本。Gemma 4 的 E2B/E4B 版本原生支持图片理解和音频输入，给它一张截图能分析内容，给它一段录音能转写文字。这是选择它的核心原因。

Apache 2.0 协议

完全免费商用，不限用途。以前的模型要么"仅限研究"，要么协议模糊，Gemma 4 直接把这个顾虑打掉了。

二、准备工作

直接打开 CanIRun.ai：

浏览器打开，等待 5 秒自动检测
识别你的 GPU / 显存 / CPU / 内存（纯本地计算，不上传数据）
直接给出可运行模型列表 + 量化版本推荐 + Ollama 一键部署命令

模型适配评级从 S（流畅）到 F（跑不动），一目了然。

隐私安全：所有检测在浏览器本地完成，不上传任何硬件数据。

我的 Mac Mini M1 16GB 检测结果：

模型	显存占用	占比	速度	评级	结论
Gemma 4 E4B IT	4.6 GB	57%	~10 tok/s	可用	✅ 推荐
Gemma 4 E2B IT	3.1 GB	39%	~14 tok/s	流畅	✅ 更轻更快
Gemma 4 26B A4B IT	14.3 GB	179%	0	跑不动	❌
Gemma 4 31B IT	17.4 GB	217%	0	跑不动	❌

M1 的隐藏优势：网站按 8GB VRAM 评估，但 M1 是统一内存架构，CPU 和 GPU 共享整块 16GB。实际可用给大模型的内存总和 = 16GB，比网站预测的 8GB VRAM 更充裕。所以 E4B IT 的实际体验比"Barely runs"好很多。

结论很清楚：Mac Mini M1 16GB，跑 Gemma 4 E4B IT，游刃有余。

Base vs IT？只选 IT。 Base 是纯预训练版本，没有对话对齐，直接用会答非所问。IT（Instruct）是指令微调版，能听懂人话。两者的显存占用和速度完全一样，没有任何硬件成本差异。

三、三条命令，跑起来

部署工具选 Ollama，大模型界的 Docker，一条命令拉模型，一条命令跑起来。

安装 Ollama

# Mac 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 或直接下载桌面版：https://ollama.com/download

安装完重启终端，验证一下：

ollama --version

下载模型

# E4B IT 版（M1 16GB 最佳平衡点）
ollama pull gemma4:e4b

下载大概 3-4GB，网速好的话两三分钟。

启动对话

ollama run gemma4:e4b "用中文介绍一下你自己"

到这里，你的 Mac Mini 已经是一个 AI 了。 没有显卡、没有云服务、没有 API Key，纯本地运行。

四、让它说好中文

Gemma 4 预训练覆盖 140+ 语言，中文能力不错，但默认偏英文。一条命令搞定永久中文模式：

# 创建中文版模型配置
cat > Modelfile << 'EOF'
FROM gemma4:e4b
SYSTEM "你是一个专业的中文AI助手，所有回答必须使用简体中文，逻辑清晰、表达自然，严格遵循用户指令。"
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER top_k 64
EOF

# 构建中文版
ollama create gemma4-e4b-zh -f Modelfile

# 以后直接用
ollama run gemma4-e4b-zh

一劳永逸，以后每次启动都是中文模式。

五、图片理解：给它一张图，它给你答案

Gemma 4 E4B 原生支持图片输入，不需要额外安装任何插件。

终端方式

启动对话后，直接用命令传入图片：

ollama run gemma4-e4b "这张图片里有什么？" --image ./screenshot.png

也可以在对话中随时切换：

# 先启动对话
ollama run gemma4-e4b

# 对话中传入图片
>>> /image ./error-log.png 这段报错是什么原因？

实际场景举例

场景	命令	效果
截图报错分析	`--image error.png "这个报错怎么修？"`	识别错误信息，给出修复建议
UI 界面审查	`--image ui.png "这个页面的布局有什么问题？"`	分析视觉层次和交互问题
数据图表解读	`--image chart.png "分析一下这个趋势图"`	提取数据趋势并给出总结
手写公式识别	`--image math.jpg "这个公式是什么？"`	识别并解释数学公式

WebUI 方式（更直观）

装好 Open WebUI 后，直接把图片拖进聊天框，自动识别并分析。比终端方便很多。

六、音频处理：本地语音转写

Gemma 4 E4B 同样支持音频输入，可以用来转写录音、分析语音内容。

终端方式

# 音频转写
ollama run gemma4:e4b "把这段音频转写成文字" --audio ./meeting.wav

# 分析语音内容
ollama run gemma4:e4b "总结这段录音的要点" --audio ./notes.mp3

支持的音频格式

格式	说明
WAV	无损，推荐使用
MP3	常见格式，直接支持
FLAC	无损压缩，支持
OGG	开源格式，支持

实际场景举例

场景	命令
会议录音转文字	`--audio meeting.wav "转写为文字并分段"`
语音笔记整理	`--audio note.mp3 "整理成结构化笔记"`
英文听力辅助	`--audio english.wav "先转写原文，再翻译成中文"`

注意：音频处理比纯文本更吃内存，长音频建议控制在 5 分钟以内。如果出现内存不足，先关掉其他应用释放统一内存。

七、告别终端黑框：装个 WebUI

终端聊天终究不够直观。装一个 Open WebUI，秒变 ChatGPT 体验。

Mac 最简方案：桌面版

下载：Open WebUI Mac 版
解压 → 拖入「应用程序」文件夹
首次打开若提示"无法验证开发者"→ 右键 → 打开
自动连接 http://localhost:11434，自动识别已下载模型

打开浏览器访问：http://localhost:3000

首次需要注册一个本地账号（数据仅存在你电脑上），选择 gemma4:e4b 开始聊天。

备选：Docker 部署

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

备选：pip 安装

pip install open-webui
open-webui serve

三选一就行。 装好之后，你得到一个完整的 ChatGPT 替代品：多模型切换、对话历史、文档上传、代码高亮、中文界面，开箱即用。

八、终极形态：Claude Code 接入

这是我最想写的部分。

Claude Code 是 Anthropic 的终端编程助手。2026 年 1 月 Ollama v0.14.0 新增兼容 Anthropic Messages API 后，Claude Code 可以直接调用本地模型，零 API 成本，代码不出本机。

一键启动

ollama launch claude --model gemma4:e4b

Ollama 自动配置环境变量、连接本地 API，直接进入编程界面。

手动配置（可选）

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_API_KEY=""

claude --model gemma4:e4b

上下文窗口不用担心。 Gemma 4 E4B 默认支持 128K 上下文，Claude Code 完全够用。如需调整：ollama run gemma4:e4b --ctx-size 65536

九、最终架构：一台 Mac Mini，三个入口

部署完成后的三个入口，互不冲突，共用一个模型：

入口	怎么用	适合干什么
终端对话	`ollama run gemma4-e4b-zh`	快速问答、测试模型
WebUI 网页	http://localhost:3000	日常聊天、文档分析、多轮对话
Claude Code	`ollama launch claude --model gemma4:e4b`	写代码、项目开发、代码审查

十、常见问题

Q：WebUI 和 Claude Code 可以同时用吗？

可以。它们通过不同的请求调用同一个 Ollama 服务，互不冲突，Ollama 会排队处理。

Q：实际体验比网上说的好还是差？

好不少。很多网站按 8GB VRAM 评估，但 M1 实际可用 16GB 统一内存。E4B IT 标注"勉强运行"，实际体验是流畅可用的，大约 10-12 tok/s。

Q：和 Qwen2.5 比怎么样？

日常对话 Qwen2.5 原生中文更自然；Gemma 4 多模态更强（图片+音频），加上中文 system 提示后中文也不错。建议都装，按需切换：ollama pull qwen2.5:7b

Q：Claude Code 连不上怎么办？

检查三件事：

Ollama 是否在运行 → ollama list
环境变量是否生效 → echo $ANTHROPIC_BASE_URL
模型名称是否正确 → claude --model gemma4:e4b

写在最后

整个部署流程不到 30 分钟。

零成本，零云服务，零数据外泄。

Gemma 4 的 Apache 2.0 协议消除了商用的法律顾虑，全系多模态（文本+图片+音频）让它不只是聊天模型，E4B 的极致压缩让 M1 也能流畅运行。而 Ollama + Open WebUI + Claude Code 的组合让整个体验从"能跑"变成了"好用"。

30 分钟部署，零成本运行，数据完全不出本机。

你的 Mac Mini，可能比你想象的更强大。

本文基于 Gemma 4 模型卡片（Google AI, 2026-04-02）、Ollama 官方文档及 Mac Mini M1 16GB 实际测试撰写。