Mac Mini M1 + Ollama + Gemma 4 + Claude Code 一站式部署指南

0 阅读8分钟

Mac Mini + Ollama + Gemma 4 + Claude Code 一站式部署指南

一、为什么选择 Gemma 4

Google 2026 年 4 月发布的 Gemma 4 开源模型家族,有几个让我决定本地部署的理由:

参数量够大,本地能跑

E4B 版本 80 亿总参数、45 亿有效参数,31B 版本在 AIME 2026 数学推理基准达到 89.2% ,LiveCodeBench 代码测试 80.0% ,开源模型中位居前列。E4B 只要 4.6GB 显存,Mac Mini M1 16GB 完全能跑。

原生多模态:文本 + 图片 + 音频

同级别的开源模型大多只支持纯文本。Gemma 4 的 E2B/E4B 版本原生支持图片理解和音频输入,给它一张截图能分析内容,给它一段录音能转写文字。这是选择它的核心原因。

Apache 2.0 协议

完全免费商用,不限用途。以前的模型要么"仅限研究",要么协议模糊,Gemma 4 直接把这个顾虑打掉了。

二、准备工作

直接打开 CanIRun.ai

  1. 浏览器打开,等待 5 秒自动检测

  2. 识别你的 GPU / 显存 / CPU / 内存(纯本地计算,不上传数据)

  3. 直接给出可运行模型列表 + 量化版本推荐 + Ollama 一键部署命令

    模型适配评级从 S(流畅)到 F(跑不动),一目了然。

隐私安全:所有检测在浏览器本地完成,不上传任何硬件数据。

我的 Mac Mini M1 16GB 检测结果:

模型显存占用占比速度评级结论
Gemma 4 E4B IT4.6 GB57%~10 tok/s可用✅ 推荐
Gemma 4 E2B IT3.1 GB39%~14 tok/s流畅✅ 更轻更快
Gemma 4 26B A4B IT14.3 GB179%0跑不动
Gemma 4 31B IT17.4 GB217%0跑不动

M1 的隐藏优势:网站按 8GB VRAM 评估,但 M1 是统一内存架构,CPU 和 GPU 共享整块 16GB。实际可用给大模型的内存总和 = 16GB,比网站预测的 8GB VRAM 更充裕。所以 E4B IT 的实际体验比"Barely runs"好很多。

结论很清楚:Mac Mini M1 16GB,跑 Gemma 4 E4B IT,游刃有余。

Base vs IT?只选 IT。 Base 是纯预训练版本,没有对话对齐,直接用会答非所问。IT(Instruct)是指令微调版,能听懂人话。两者的显存占用和速度完全一样,没有任何硬件成本差异。

三、三条命令,跑起来

部署工具选 Ollama,大模型界的 Docker,一条命令拉模型,一条命令跑起来。

安装 Ollama

# Mac 一键安装
curl -fsSL https://ollama.com/install.sh | sh
​
# 或直接下载桌面版:https://ollama.com/download

安装完重启终端,验证一下:

ollama --version

下载模型

# E4B IT 版(M1 16GB 最佳平衡点)
ollama pull gemma4:e4b

下载大概 3-4GB,网速好的话两三分钟。

启动对话

ollama run gemma4:e4b "用中文介绍一下你自己"

到这里,你的 Mac Mini 已经是一个 AI 了。 没有显卡、没有云服务、没有 API Key,纯本地运行。

四、让它说好中文

Gemma 4 预训练覆盖 140+ 语言,中文能力不错,但默认偏英文。一条命令搞定永久中文模式:

# 创建中文版模型配置
cat > Modelfile << 'EOF'
FROM gemma4:e4b
SYSTEM "你是一个专业的中文AI助手,所有回答必须使用简体中文,逻辑清晰、表达自然,严格遵循用户指令。"
PARAMETER temperature 0.7
PARAMETER top_p 0.95
PARAMETER top_k 64
EOF
​
# 构建中文版
ollama create gemma4-e4b-zh -f Modelfile
​
# 以后直接用
ollama run gemma4-e4b-zh

一劳永逸,以后每次启动都是中文模式。

五、图片理解:给它一张图,它给你答案

Gemma 4 E4B 原生支持图片输入,不需要额外安装任何插件。

终端方式

启动对话后,直接用命令传入图片:

ollama run gemma4-e4b "这张图片里有什么?" --image ./screenshot.png

也可以在对话中随时切换:

# 先启动对话
ollama run gemma4-e4b
​
# 对话中传入图片
>>> /image ./error-log.png 这段报错是什么原因?

实际场景举例

场景命令效果
截图报错分析--image error.png "这个报错怎么修?"识别错误信息,给出修复建议
UI 界面审查--image ui.png "这个页面的布局有什么问题?"分析视觉层次和交互问题
数据图表解读--image chart.png "分析一下这个趋势图"提取数据趋势并给出总结
手写公式识别--image math.jpg "这个公式是什么?"识别并解释数学公式

WebUI 方式(更直观)

装好 Open WebUI 后,直接把图片拖进聊天框,自动识别并分析。比终端方便很多。

六、音频处理:本地语音转写

Gemma 4 E4B 同样支持音频输入,可以用来转写录音、分析语音内容。

终端方式

# 音频转写
ollama run gemma4:e4b "把这段音频转写成文字" --audio ./meeting.wav
​
# 分析语音内容
ollama run gemma4:e4b "总结这段录音的要点" --audio ./notes.mp3

支持的音频格式

格式说明
WAV无损,推荐使用
MP3常见格式,直接支持
FLAC无损压缩,支持
OGG开源格式,支持

实际场景举例

场景命令
会议录音转文字--audio meeting.wav "转写为文字并分段"
语音笔记整理--audio note.mp3 "整理成结构化笔记"
英文听力辅助--audio english.wav "先转写原文,再翻译成中文"

注意:音频处理比纯文本更吃内存,长音频建议控制在 5 分钟以内。如果出现内存不足,先关掉其他应用释放统一内存。

七、告别终端黑框:装个 WebUI

终端聊天终究不够直观。装一个 Open WebUI,秒变 ChatGPT 体验。

Mac 最简方案:桌面版

  1. 下载:Open WebUI Mac 版

  2. 解压 → 拖入「应用程序」文件夹

  3. 首次打开若提示"无法验证开发者"→ 右键 → 打开

  4. 自动连接 http://localhost:11434,自动识别已下载模型

    打开浏览器访问:http://localhost:3000

    首次需要注册一个本地账号(数据仅存在你电脑上),选择 gemma4:e4b 开始聊天。

备选:Docker 部署

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

备选:pip 安装

pip install open-webui
open-webui serve

三选一就行。 装好之后,你得到一个完整的 ChatGPT 替代品:多模型切换、对话历史、文档上传、代码高亮、中文界面,开箱即用。

八、终极形态:Claude Code 接入

这是我最想写的部分。

Claude Code 是 Anthropic 的终端编程助手。2026 年 1 月 Ollama v0.14.0 新增兼容 Anthropic Messages API 后,Claude Code 可以直接调用本地模型,零 API 成本,代码不出本机

一键启动

ollama launch claude --model gemma4:e4b

Ollama 自动配置环境变量、连接本地 API,直接进入编程界面。

手动配置(可选)

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_API_KEY=""

claude --model gemma4:e4b

上下文窗口不用担心。 Gemma 4 E4B 默认支持 128K 上下文,Claude Code 完全够用。如需调整:ollama run gemma4:e4b --ctx-size 65536

九、最终架构:一台 Mac Mini,三个入口

部署完成后的三个入口,互不冲突,共用一个模型:

入口怎么用适合干什么
终端对话ollama run gemma4-e4b-zh快速问答、测试模型
WebUI 网页http://localhost:3000日常聊天、文档分析、多轮对话
Claude Codeollama launch claude --model gemma4:e4b写代码、项目开发、代码审查

十、常见问题

Q:WebUI 和 Claude Code 可以同时用吗?

可以。它们通过不同的请求调用同一个 Ollama 服务,互不冲突,Ollama 会排队处理。

Q:实际体验比网上说的好还是差?

好不少。很多网站按 8GB VRAM 评估,但 M1 实际可用 16GB 统一内存。E4B IT 标注"勉强运行",实际体验是流畅可用的,大约 10-12 tok/s。

Q:和 Qwen2.5 比怎么样?

日常对话 Qwen2.5 原生中文更自然;Gemma 4 多模态更强(图片+音频),加上中文 system 提示后中文也不错。建议都装,按需切换:ollama pull qwen2.5:7b

Q:Claude Code 连不上怎么办?

检查三件事:

  1. Ollama 是否在运行 → ollama list
  2. 环境变量是否生效 → echo $ANTHROPIC_BASE_URL
  3. 模型名称是否正确 → claude --model gemma4:e4b

写在最后

整个部署流程不到 30 分钟。

零成本,零云服务,零数据外泄。

Gemma 4 的 Apache 2.0 协议消除了商用的法律顾虑,全系多模态(文本+图片+音频)让它不只是聊天模型,E4B 的极致压缩让 M1 也能流畅运行。而 Ollama + Open WebUI + Claude Code 的组合让整个体验从"能跑"变成了"好用"。

30 分钟部署,零成本运行,数据完全不出本机。

你的 Mac Mini,可能比你想象的更强大。

本文基于 Gemma 4 模型卡片(Google AI, 2026-04-02)、Ollama 官方文档及 Mac Mini M1 16GB 实际测试撰写。