Gemma 4 完整部署指南:移动端、本地推理、云端全覆盖

0 阅读4分钟

Google DeepMind 在 2026 年 4 月 3 日正式发布 Gemma 4,首次采用 Apache 2.0 协议,彻底解决了之前自定义许可证给商业使用带来的法律灰色地带。这篇文章整理了 Gemma 4 四个版本的核心区别、各平台部署路径和常见问题,方便开发者快速上手。

四个版本怎么选

Gemma 4 发布了四个尺寸,定位完全不同:

模型架构激活参数显存需求(4bit)适合场景
E2BDense + PLE~2.3B~2GB手机/边缘设备
E4BDense + PLE~4.5B~3.6GB笔记本/平板
26B A4BMoE3.8B~16GB消费级 GPU
31BDense30.7B~18GB工作站

最让人意外的是 E2B 的表现:多个社区测试确认它在多项基准上超越了 Gemma 3 27B,而有效参数量只有后者的十二分之一。26B A4B 是 MoE 架构,虽然总参数 25.2B,但每次推理只激活 3.8B 参数,本地跑起来更接近 4B 模型的资源消耗,却有接近 31B 的输出质量。

架构亮点

PLE(逐层嵌入) E2B 和 E4B 用的不是 MoE,而是 Per-Layer Embeddings。标准 Transformer 每个 token 只有一个输入嵌入向量,PLE 在此基础上为每一层额外提供一个低维条件向量,让每层可以接收 token 特定的信息。这是 E2B 能在不到 1.5GB 内存下运行的核心原因。

混合注意力机制 所有 Gemma 4 模型都使用局部滑动窗口注意力和全局注意力交替的设计,最后一层始终是全局注意力。小模型滑动窗口 512 token,大模型 1024 token。

已知问题:KV Cache 占用 长上下文场景下 KV Cache 内存占用很大。31B 在 262K context 下光 KV Cache 就需要约 22GB,叠加模型本身的显存需求对消费级硬件压力很大。临时解决方案:

--ctx-size 8192 --cache-type-k q4_0 --parallel 1

本地部署

Ollama(最快上手)

codeBash

# E4B,适合大多数笔记本
ollama pull gemma4:e4b
ollama run gemma4:e4b

# 26B A4B,需要 16GB+ 显存
ollama pull gemma4:26b-a4b
ollama run gemma4:26b-a4b

需要 Ollama 0.20 或更高版本。

llama.cpp

发布后不久 tokenizer bug 已修复并合并进主分支,使用前建议先 pull 最新代码重新编译。

Apple Silicon(MLX)

Unsloth MLX 构建版内存占用比 Ollama 少约 40%,但推理速度慢 15—20%。内存紧张的情况下可以考虑:

codeBash

pip install mlx-lm
mlx_lm.generate --model unsloth/gemma-4-e4b-it-mlx \
--prompt "你好"

LM Studio

在模型浏览器里搜索 "gemma4",E4B 和 26B A4B 都有预量化的 GGUF 版本可以直接下载。

移动端部署

Android

Android 是目前官方支持最完整的移动端路径:

  1. Google AI Edge Gallery:最快验证 E2B/E4B 效果的方式,直接从 Play Store 安装
  2. LiteRT-LM:面向开发者,支持 2-bit 和 4-bit 量化,E2B 内存占用可压到 1.5GB 以下
  3. ML Kit GenAI Prompt API:生产级 Android 应用集成接口
  4. Android AICore:系统级优化的 Gemma 4 访问接口,支持 Android 10+

iOS

iOS 目前是开发者路径,没有面向普通用户的消费级 App。官方接入方式是 MediaPipe LLM Inference SDK,配置比 Android 繁琐。

Android 和 iOS 的完整部署路径对比可以参考 gemma4.app/zh/mobile

云端部署

Google 官方提供三条云端路径:

  • Vertex AI:托管部署,有自动扩缩容,适合需要 SLA 保障的生产环境。
  • Cloud Run:无服务器容器部署,运维成本低,适合中等流量场景。
  • GKE + vLLM:高吞吐服务化部署,适合已有 Kubernetes 基础设施的团队。

如果不想自己托管,OpenRouter 上 26B A4B 的 API 价格是 

0.13/Minputtokens,0.13/Minputtokens,

0.40/M output tokens,是目前最便宜的接入方式之一。

微调现状

发布初期 QLoRA 工具链不成熟,主要有三个问题:

  • HuggingFace Transformers 不识别 gemma4 架构(需要从源码安装)
  • PEFT 无法处理视觉编码器里的新层类型 Gemma4ClippableLinear
  • 纯文本训练也需要传入新字段 mm_token_type_ids

目前相关 issue 已经在 huggingface/peft 和 huggingface/transformers 上提交,微调前建议先确认工具链版本。

基准数据参考

测试31B26B A4BE4B
AIME 202689.2%88.3%42.5%
GPQA Diamond84.3%82.3%
LiveCodeBench v680.0%77.1%52.0%
MMMU Pro76.9%73.8%

31B 目前在 Arena AI 开源模型排行榜位列第三,26B A4B 位列第六。

在线试用

不想在本地配置环境的话,可以直接在 gemma4.app/zh 试用 Gemma 4 26B,不需要注册,基于 OpenRouter 接入。

总结

按使用场景选模型:

  • 手机离线 AI:E2B 通过 LiteRT-LM
  • 笔记本本地助手:E4B 通过 Ollama
  • 消费级 GPU 最佳选择:26B A4B(MoE 效率优势)
  • 追求最高质量:31B Dense
  • 生产云端部署:Vertex AI 或 GKE + vLLM

Apache 2.0 许可证让 Gemma 4 成为商业产品中使用开源模型的一类选择,不再有法律灰色地带。