Mac Mini + Ollama + Gemma 4 + Claude Code 一站式部署指南
一、为什么选择 Gemma 4
Google 2026 年 4 月发布的 Gemma 4 开源模型家族,有几个让我决定本地部署的理由:
参数量够大,本地能跑
E4B 版本 80 亿总参数、45 亿有效参数,31B 版本在 AIME 2026 数学推理基准达到 89.2% ,LiveCodeBench 代码测试 80.0% ,开源模型中位居前列。E4B 只要 4.6GB 显存,Mac Mini M1 16GB 完全能跑。
原生多模态:文本 + 图片 + 音频
同级别的开源模型大多只支持纯文本。Gemma 4 的 E2B/E4B 版本原生支持图片理解和音频输入,给它一张截图能分析内容,给它一段录音能转写文字。这是选择它的核心原因。
Apache 2.0 协议
完全免费商用,不限用途。以前的模型要么"仅限研究",要么协议模糊,Gemma 4 直接把这个顾虑打掉了。
二、准备工作
直接打开 CanIRun.ai:
-
浏览器打开,等待 5 秒自动检测
-
识别你的 GPU / 显存 / CPU / 内存(纯本地计算,不上传数据)
-
直接给出可运行模型列表 + 量化版本推荐 + Ollama 一键部署命令
模型适配评级从 S(流畅)到 F(跑不动),一目了然。
隐私安全:所有检测在浏览器本地完成,不上传任何硬件数据。
我的 Mac Mini M1 16GB 检测结果:
| 模型 | 显存占用 | 占比 | 速度 | 评级 | 结论 |
|---|---|---|---|---|---|
| Gemma 4 E4B IT | 4.6 GB | 57% | ~10 tok/s | 可用 | ✅ 推荐 |
| Gemma 4 E2B IT | 3.1 GB | 39% | ~14 tok/s | 流畅 | ✅ 更轻更快 |
| Gemma 4 26B A4B IT | 14.3 GB | 179% | 0 | 跑不动 | ❌ |
| Gemma 4 31B IT | 17.4 GB | 217% | 0 | 跑不动 | ❌ |
M1 的隐藏优势:网站按 8GB VRAM 评估,但 M1 是统一内存架构,CPU 和 GPU 共享整块 16GB。实际可用给大模型的内存总和 = 16GB,比网站预测的 8GB VRAM 更充裕。所以 E4B IT 的实际体验比"Barely runs"好很多。
结论很清楚:Mac Mini M1 16GB,跑 Gemma 4 E4B IT,游刃有余。
Base vs IT?只选 IT。 Base 是纯预训练版本,没有对话对齐,直接用会答非所问。IT(Instruct)是指令微调版,能听懂人话。两者的显存占用和速度完全一样,没有任何硬件成本差异。
三、三条命令,跑起来
部署工具选 Ollama,大模型界的 Docker,一条命令拉模型,一条命令跑起来。
安装 Ollama
# Mac 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 或直接下载桌面版:https://ollama.com/download
安装完重启终端,验证一下:
ollama --version
下载模型
# E4B IT 版(M1 16GB 最佳平衡点)
ollama pull gemma4:e4b
下载大概 3-4GB,网速好的话两三分钟。
启动对话
ollama run gemma4:e4b "用中文介绍一下你自己"
到这里,你的 Mac Mini 已经是一个 AI 了。 没有显卡、没有云服务、没有 API Key,纯本地运行。
四、让它说好中文
Gemma 4 预训练覆盖 140+ 语言,中文能力不错,但默认偏英文。一条命令搞定永久中文模式:
# 创建中文版模型配置
cat > Modelfile << 'EOF'
FROM gemma4:e4b
SYSTEM "你是一个专业的中文AI助手,所有回答必须使用简体中文,逻辑清晰、表达自然,严格遵循用户指令。"
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER top_k 64
EOF
# 构建中文版
ollama create gemma4-e4b-zh -f Modelfile
# 以后直接用
ollama run gemma4-e4b-zh
一劳永逸,以后每次启动都是中文模式。
五、图片理解:给它一张图,它给你答案
Gemma 4 E4B 原生支持图片输入,不需要额外安装任何插件。
终端方式
启动对话后,直接用命令传入图片:
ollama run gemma4-e4b "这张图片里有什么?" --image ./screenshot.png
也可以在对话中随时切换:
# 先启动对话
ollama run gemma4-e4b
# 对话中传入图片
>>> /image ./error-log.png 这段报错是什么原因?
实际场景举例
| 场景 | 命令 | 效果 |
|---|---|---|
| 截图报错分析 | --image error.png "这个报错怎么修?" | 识别错误信息,给出修复建议 |
| UI 界面审查 | --image ui.png "这个页面的布局有什么问题?" | 分析视觉层次和交互问题 |
| 数据图表解读 | --image chart.png "分析一下这个趋势图" | 提取数据趋势并给出总结 |
| 手写公式识别 | --image math.jpg "这个公式是什么?" | 识别并解释数学公式 |
WebUI 方式(更直观)
装好 Open WebUI 后,直接把图片拖进聊天框,自动识别并分析。比终端方便很多。
六、音频处理:本地语音转写
Gemma 4 E4B 同样支持音频输入,可以用来转写录音、分析语音内容。
终端方式
# 音频转写
ollama run gemma4:e4b "把这段音频转写成文字" --audio ./meeting.wav
# 分析语音内容
ollama run gemma4:e4b "总结这段录音的要点" --audio ./notes.mp3
支持的音频格式
| 格式 | 说明 |
|---|---|
| WAV | 无损,推荐使用 |
| MP3 | 常见格式,直接支持 |
| FLAC | 无损压缩,支持 |
| OGG | 开源格式,支持 |
实际场景举例
| 场景 | 命令 |
|---|---|
| 会议录音转文字 | --audio meeting.wav "转写为文字并分段" |
| 语音笔记整理 | --audio note.mp3 "整理成结构化笔记" |
| 英文听力辅助 | --audio english.wav "先转写原文,再翻译成中文" |
注意:音频处理比纯文本更吃内存,长音频建议控制在 5 分钟以内。如果出现内存不足,先关掉其他应用释放统一内存。
七、告别终端黑框:装个 WebUI
终端聊天终究不够直观。装一个 Open WebUI,秒变 ChatGPT 体验。
Mac 最简方案:桌面版
-
解压 → 拖入「应用程序」文件夹
-
首次打开若提示"无法验证开发者"→ 右键 → 打开
-
自动连接
http://localhost:11434,自动识别已下载模型打开浏览器访问:http://localhost:3000
首次需要注册一个本地账号(数据仅存在你电脑上),选择
gemma4:e4b开始聊天。
备选:Docker 部署
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
备选:pip 安装
pip install open-webui
open-webui serve
三选一就行。 装好之后,你得到一个完整的 ChatGPT 替代品:多模型切换、对话历史、文档上传、代码高亮、中文界面,开箱即用。
八、终极形态:Claude Code 接入
这是我最想写的部分。
Claude Code 是 Anthropic 的终端编程助手。2026 年 1 月 Ollama v0.14.0 新增兼容 Anthropic Messages API 后,Claude Code 可以直接调用本地模型,零 API 成本,代码不出本机。
一键启动
ollama launch claude --model gemma4:e4b
Ollama 自动配置环境变量、连接本地 API,直接进入编程界面。
手动配置(可选)
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_API_KEY=""
claude --model gemma4:e4b
上下文窗口不用担心。 Gemma 4 E4B 默认支持 128K 上下文,Claude Code 完全够用。如需调整:
ollama run gemma4:e4b --ctx-size 65536
九、最终架构:一台 Mac Mini,三个入口
部署完成后的三个入口,互不冲突,共用一个模型:
| 入口 | 怎么用 | 适合干什么 |
|---|---|---|
| 终端对话 | ollama run gemma4-e4b-zh | 快速问答、测试模型 |
| WebUI 网页 | http://localhost:3000 | 日常聊天、文档分析、多轮对话 |
| Claude Code | ollama launch claude --model gemma4:e4b | 写代码、项目开发、代码审查 |
十、常见问题
Q:WebUI 和 Claude Code 可以同时用吗?
可以。它们通过不同的请求调用同一个 Ollama 服务,互不冲突,Ollama 会排队处理。
Q:实际体验比网上说的好还是差?
好不少。很多网站按 8GB VRAM 评估,但 M1 实际可用 16GB 统一内存。E4B IT 标注"勉强运行",实际体验是流畅可用的,大约 10-12 tok/s。
Q:和 Qwen2.5 比怎么样?
日常对话 Qwen2.5 原生中文更自然;Gemma 4 多模态更强(图片+音频),加上中文 system 提示后中文也不错。建议都装,按需切换:ollama pull qwen2.5:7b
Q:Claude Code 连不上怎么办?
检查三件事:
- Ollama 是否在运行 →
ollama list - 环境变量是否生效 →
echo $ANTHROPIC_BASE_URL - 模型名称是否正确 →
claude --model gemma4:e4b
写在最后
整个部署流程不到 30 分钟。
零成本,零云服务,零数据外泄。
Gemma 4 的 Apache 2.0 协议消除了商用的法律顾虑,全系多模态(文本+图片+音频)让它不只是聊天模型,E4B 的极致压缩让 M1 也能流畅运行。而 Ollama + Open WebUI + Claude Code 的组合让整个体验从"能跑"变成了"好用"。
30 分钟部署,零成本运行,数据完全不出本机。
你的 Mac Mini,可能比你想象的更强大。
本文基于 Gemma 4 模型卡片(Google AI, 2026-04-02)、Ollama 官方文档及 Mac Mini M1 16GB 实际测试撰写。