Gemma 4 完整部署指南：移动端、本地推理、云端全覆盖Google DeepMind 在 2026 年 4 月 3

Google DeepMind 在 2026 年 4 月 3 日正式发布 Gemma 4，首次采用 Apache 2.0 协议，彻底解决了之前自定义许可证给商业使用带来的法律灰色地带。这篇文章整理了 Gemma 4 四个版本的核心区别、各平台部署路径和常见问题，方便开发者快速上手。

四个版本怎么选

Gemma 4 发布了四个尺寸，定位完全不同：

模型	架构	激活参数	显存需求(4bit)	适合场景
E2B	Dense + PLE	~2.3B	~2GB	手机/边缘设备
E4B	Dense + PLE	~4.5B	~3.6GB	笔记本/平板
26B A4B	MoE	3.8B	~16GB	消费级 GPU
31B	Dense	30.7B	~18GB	工作站

最让人意外的是 E2B 的表现：多个社区测试确认它在多项基准上超越了 Gemma 3 27B，而有效参数量只有后者的十二分之一。26B A4B 是 MoE 架构，虽然总参数 25.2B，但每次推理只激活 3.8B 参数，本地跑起来更接近 4B 模型的资源消耗，却有接近 31B 的输出质量。

架构亮点

PLE（逐层嵌入） E2B 和 E4B 用的不是 MoE，而是 Per-Layer Embeddings。标准 Transformer 每个 token 只有一个输入嵌入向量，PLE 在此基础上为每一层额外提供一个低维条件向量，让每层可以接收 token 特定的信息。这是 E2B 能在不到 1.5GB 内存下运行的核心原因。

混合注意力机制 所有 Gemma 4 模型都使用局部滑动窗口注意力和全局注意力交替的设计，最后一层始终是全局注意力。小模型滑动窗口 512 token，大模型 1024 token。

已知问题：KV Cache 占用 长上下文场景下 KV Cache 内存占用很大。31B 在 262K context 下光 KV Cache 就需要约 22GB，叠加模型本身的显存需求对消费级硬件压力很大。临时解决方案：

--ctx-size 8192 --cache-type-k q4_0 --parallel 1

本地部署

Ollama（最快上手）

codeBash

# E4B，适合大多数笔记本
ollama pull gemma4:e4b
ollama run gemma4:e4b

# 26B A4B，需要 16GB+ 显存
ollama pull gemma4:26b-a4b
ollama run gemma4:26b-a4b

需要 Ollama 0.20 或更高版本。

llama.cpp

发布后不久 tokenizer bug 已修复并合并进主分支，使用前建议先 pull 最新代码重新编译。

Apple Silicon（MLX）

Unsloth MLX 构建版内存占用比 Ollama 少约 40%，但推理速度慢 15—20%。内存紧张的情况下可以考虑：

codeBash

pip install mlx-lm
mlx_lm.generate --model unsloth/gemma-4-e4b-it-mlx \
--prompt "你好"

LM Studio

在模型浏览器里搜索 "gemma4"，E4B 和 26B A4B 都有预量化的 GGUF 版本可以直接下载。

移动端部署

Android

Android 是目前官方支持最完整的移动端路径：

Google AI Edge Gallery：最快验证 E2B/E4B 效果的方式，直接从 Play Store 安装
LiteRT-LM：面向开发者，支持 2-bit 和 4-bit 量化，E2B 内存占用可压到 1.5GB 以下
ML Kit GenAI Prompt API：生产级 Android 应用集成接口
Android AICore：系统级优化的 Gemma 4 访问接口，支持 Android 10+

iOS

iOS 目前是开发者路径，没有面向普通用户的消费级 App。官方接入方式是 MediaPipe LLM Inference SDK，配置比 Android 繁琐。

Android 和 iOS 的完整部署路径对比可以参考 gemma4.app/zh/mobile。

云端部署

Google 官方提供三条云端路径：

Vertex AI：托管部署，有自动扩缩容，适合需要 SLA 保障的生产环境。
Cloud Run：无服务器容器部署，运维成本低，适合中等流量场景。
GKE + vLLM：高吞吐服务化部署，适合已有 Kubernetes 基础设施的团队。

如果不想自己托管，OpenRouter 上 26B A4B 的 API 价格是

0.13/Minputtokens，0.13/Minputtokens，

0.40/M output tokens，是目前最便宜的接入方式之一。

微调现状

发布初期 QLoRA 工具链不成熟，主要有三个问题：

HuggingFace Transformers 不识别 gemma4 架构（需要从源码安装）
PEFT 无法处理视觉编码器里的新层类型 Gemma4ClippableLinear
纯文本训练也需要传入新字段 mm_token_type_ids

目前相关 issue 已经在 huggingface/peft 和 huggingface/transformers 上提交，微调前建议先确认工具链版本。

基准数据参考

测试	31B	26B A4B	E4B
AIME 2026	89.2%	88.3%	42.5%
GPQA Diamond	84.3%	82.3%	—
LiveCodeBench v6	80.0%	77.1%	52.0%
MMMU Pro	76.9%	73.8%	—

31B 目前在 Arena AI 开源模型排行榜位列第三，26B A4B 位列第六。

在线试用

不想在本地配置环境的话，可以直接在 gemma4.app/zh 试用 Gemma 4 26B，不需要注册，基于 OpenRouter 接入。

总结

按使用场景选模型：

手机离线 AI：E2B 通过 LiteRT-LM
笔记本本地助手：E4B 通过 Ollama
消费级 GPU 最佳选择：26B A4B（MoE 效率优势）
追求最高质量：31B Dense
生产云端部署：Vertex AI 或 GKE + vLLM

Apache 2.0 许可证让 Gemma 4 成为商业产品中使用开源模型的一类选择，不再有法律灰色地带。