Google DeepMind 在 2026 年 4 月 3 日正式发布 Gemma 4,首次采用 Apache 2.0 协议,彻底解决了之前自定义许可证给商业使用带来的法律灰色地带。这篇文章整理了 Gemma 4 四个版本的核心区别、各平台部署路径和常见问题,方便开发者快速上手。
四个版本怎么选
Gemma 4 发布了四个尺寸,定位完全不同:
| 模型 | 架构 | 激活参数 | 显存需求(4bit) | 适合场景 |
|---|---|---|---|---|
| E2B | Dense + PLE | ~2.3B | ~2GB | 手机/边缘设备 |
| E4B | Dense + PLE | ~4.5B | ~3.6GB | 笔记本/平板 |
| 26B A4B | MoE | 3.8B | ~16GB | 消费级 GPU |
| 31B | Dense | 30.7B | ~18GB | 工作站 |
最让人意外的是 E2B 的表现:多个社区测试确认它在多项基准上超越了 Gemma 3 27B,而有效参数量只有后者的十二分之一。26B A4B 是 MoE 架构,虽然总参数 25.2B,但每次推理只激活 3.8B 参数,本地跑起来更接近 4B 模型的资源消耗,却有接近 31B 的输出质量。
架构亮点
PLE(逐层嵌入) E2B 和 E4B 用的不是 MoE,而是 Per-Layer Embeddings。标准 Transformer 每个 token 只有一个输入嵌入向量,PLE 在此基础上为每一层额外提供一个低维条件向量,让每层可以接收 token 特定的信息。这是 E2B 能在不到 1.5GB 内存下运行的核心原因。
混合注意力机制 所有 Gemma 4 模型都使用局部滑动窗口注意力和全局注意力交替的设计,最后一层始终是全局注意力。小模型滑动窗口 512 token,大模型 1024 token。
已知问题:KV Cache 占用 长上下文场景下 KV Cache 内存占用很大。31B 在 262K context 下光 KV Cache 就需要约 22GB,叠加模型本身的显存需求对消费级硬件压力很大。临时解决方案:
--ctx-size 8192 --cache-type-k q4_0 --parallel 1
本地部署
Ollama(最快上手)
codeBash
# E4B,适合大多数笔记本
ollama pull gemma4:e4b
ollama run gemma4:e4b
# 26B A4B,需要 16GB+ 显存
ollama pull gemma4:26b-a4b
ollama run gemma4:26b-a4b
需要 Ollama 0.20 或更高版本。
llama.cpp
发布后不久 tokenizer bug 已修复并合并进主分支,使用前建议先 pull 最新代码重新编译。
Apple Silicon(MLX)
Unsloth MLX 构建版内存占用比 Ollama 少约 40%,但推理速度慢 15—20%。内存紧张的情况下可以考虑:
codeBash
pip install mlx-lm
mlx_lm.generate --model unsloth/gemma-4-e4b-it-mlx \
--prompt "你好"
LM Studio
在模型浏览器里搜索 "gemma4",E4B 和 26B A4B 都有预量化的 GGUF 版本可以直接下载。
移动端部署
Android
Android 是目前官方支持最完整的移动端路径:
- Google AI Edge Gallery:最快验证 E2B/E4B 效果的方式,直接从 Play Store 安装
- LiteRT-LM:面向开发者,支持 2-bit 和 4-bit 量化,E2B 内存占用可压到 1.5GB 以下
- ML Kit GenAI Prompt API:生产级 Android 应用集成接口
- Android AICore:系统级优化的 Gemma 4 访问接口,支持 Android 10+
iOS
iOS 目前是开发者路径,没有面向普通用户的消费级 App。官方接入方式是 MediaPipe LLM Inference SDK,配置比 Android 繁琐。
Android 和 iOS 的完整部署路径对比可以参考 gemma4.app/zh/mobile。
云端部署
Google 官方提供三条云端路径:
- Vertex AI:托管部署,有自动扩缩容,适合需要 SLA 保障的生产环境。
- Cloud Run:无服务器容器部署,运维成本低,适合中等流量场景。
- GKE + vLLM:高吞吐服务化部署,适合已有 Kubernetes 基础设施的团队。
如果不想自己托管,OpenRouter 上 26B A4B 的 API 价格是
0.13/Minputtokens,0.13/Minputtokens,
0.40/M output tokens,是目前最便宜的接入方式之一。
微调现状
发布初期 QLoRA 工具链不成熟,主要有三个问题:
- HuggingFace Transformers 不识别 gemma4 架构(需要从源码安装)
- PEFT 无法处理视觉编码器里的新层类型 Gemma4ClippableLinear
- 纯文本训练也需要传入新字段 mm_token_type_ids
目前相关 issue 已经在 huggingface/peft 和 huggingface/transformers 上提交,微调前建议先确认工具链版本。
基准数据参考
| 测试 | 31B | 26B A4B | E4B |
|---|---|---|---|
| AIME 2026 | 89.2% | 88.3% | 42.5% |
| GPQA Diamond | 84.3% | 82.3% | — |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% |
| MMMU Pro | 76.9% | 73.8% | — |
31B 目前在 Arena AI 开源模型排行榜位列第三,26B A4B 位列第六。
在线试用
不想在本地配置环境的话,可以直接在 gemma4.app/zh 试用 Gemma 4 26B,不需要注册,基于 OpenRouter 接入。
总结
按使用场景选模型:
- 手机离线 AI:E2B 通过 LiteRT-LM
- 笔记本本地助手:E4B 通过 Ollama
- 消费级 GPU 最佳选择:26B A4B(MoE 效率优势)
- 追求最高质量:31B Dense
- 生产云端部署:Vertex AI 或 GKE + vLLM
Apache 2.0 许可证让 Gemma 4 成为商业产品中使用开源模型的一类选择,不再有法律灰色地带。