Gemma 4 发布：Google 这次玩真的，4 种规模全开源，从手机到服务器都能跑。Google DeepMind

Google DeepMind 又放大招了！4 月 2 日，Gemma 4 系列正式发布，这次真的是「全家桶」——从 23 亿到 307 亿参数，密集型 + MoE 混合专家架构全都有，上下文窗口最高 25.6 万 token，还原生支持推理模式。更狠的是，全系 Apache 2.0 开源，从手机到服务器都能跑。

先看这组数字：4 种规模、25.6 万 token 上下文、140+ 种语言、原生推理模式。什么概念？一部技术文档，它能一口气读完还能给你做推理分析。

模型家族：从手机到服务器，全场景覆盖

Gemma 4 这次不是单打独斗，而是直接推出了 4 个型号，覆盖从移动设备到数据中心的全场景。

密集模型：三兄弟各有所长

型号	参数规模	上下文长度	支持模态	定位
E2B	23 亿有效参数（含嵌入 51 亿）	128k token	文本、图片、音频	移动端/边缘设备
E4B	45 亿有效参数（含嵌入 80 亿）	128k token	文本、图片、音频	笔记本/边缘设备
31B Dense	307 亿	256k token	文本、图片	工作站/服务器

E2B 和 E4B 中的「E」表示「有效参数」。这两个小型号用了 Per-Layer Embeddings (PLE) 技术——简单说，就是每个解码器层都有自己的小型嵌入表，嵌入表很大但只用于快速查找，所以有效参数数量远小于总数。这是专为设备端优化的设计，让模型能在手机和笔记本上高效运行。

MoE 模型：速度与能力的完美平衡

型号	参数总数	有效参数	上下文长度	专家数量	支持模态
26B A4B	252 亿	38 亿	256k token	8 个有效 / 128 个总数 + 1 个共享	文本、图片

26B A4B 中的「A」表示「有效参数」。通过混合专家架构，推理时只激活 40 亿参数子集，运行速度几乎和 40 亿参数模型一样快，但能力接近 260 亿参数模型。这是快速推理的绝佳选择。

关键是 Hybrid Attention 混合注意力机制：局部滑动窗口注意力 + 全局注意力交织，最后一层始终是全局的。这种设计既有轻量级模型的处理速度和低内存占用，又不牺牲复杂长上下文任务所需的深度感知能力。

性能炸裂：多个基准测试拿下 SOTA

数据不会骗人。Gemma 4 这次在多个基准测试上直接拿下 SOTA。

核心能力对比

Benchmark	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 无工具	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%

看这组数据：31B 在 AIME 2026（数学竞赛）上拿下 89.2%，在 LiveCodeBench（编码能力）上拿下 80.0%，Codeforces ELO 达到 2150——这是什么水平？已经超过大部分人类程序员了。

更让人眼前一亮的是，即使是最小的 E2B，在 MMLU Pro 上也能拿到 60.0%，比 Gemma 3 27B 的 67.6% 只差 7.6 个百分点，但参数量只有它的十分之一不到。

多模态能力：视觉理解全面提升

能力维度	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B
MMMU Pro	76.9%	73.8%	52.6%	44.2%
MATH-Vision	85.6%	82.4%	59.5%	52.4%
OmniDocBench 1.5（越低越好）	0.131	0.149	0.181	0.290

在视觉理解方面，31B 在 MATH-Vision 上拿下 85.6%，在文档解析（OmniDocBench）上编辑距离只有 0.131——这意味着它能精准识别和理解文档内容，OCR 能力直接拉满。

音频能力：E2B/E4B 独有

能力维度	Gemma 4 E4B	Gemma 4 E2B
CoVoST（语音翻译）	35.54	33.47
FLEURS（语音识别，越低越好）	0.08	0.09

E2B 和 E4B 原生支持音频输入，在语音识别和翻译任务上表现优异。

长上下文：真正的「看完整本书」

上下文长度	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B
MRCR v2 8 针 128k（平均）	66.4%	44.1%	25.4%	19.1%

31B 在 12.8 万 token 的长上下文任务上拿下 66.4%，这是什么概念？一本中等长度的技术书籍，它能一口气读完还能回答问题。

核心功能：不只是多模态，还有推理模式

Gemma 4 不是简单的多模态模型，而是带了一堆「黑科技」。

功能一览

功能	支持型号	说明
思考模式	全系支持	内置推理模式，可让模型在回答之前进行分步思考
长上下文	全系支持	E2B/E4B 支持 12.8 万 token，26B A4B/31B 支持 25.6 万 token
图片理解	全系支持	对象检测、文档/PDF 解析、OCR、手写识别、可变宽高比和分辨率
视频理解	全系支持	通过处理帧序列来分析视频
音频处理	E2B/E4B	自动语音识别 (ASR) 和语音翻译（支持多种语言）
函数调用	全系支持	原生支持结构化工具使用，可实现智能体工作流
多语言	全系支持	开箱即用支持 35+ 种语言，预训练了 140+ 种语言

黑科技：思考模式

最让人眼前一亮的是 思考模式（Thinking Mode）。

简单说，就是模型在回答之前会先「想一想」。通过在系统提示中包含 {"<|think|>"} 令牌来启用思考，模型会输出内部推理过程，然后再给出最终答案。

这是 Gemma 4 独有的「涌现能力」，让模型能处理更复杂的推理任务。在 AIME 2026（数学竞赛）和 Codeforces（编程竞赛）上的表现就是最好的证明。

可变图片分辨率：细节与速度的平衡

Gemma 4 支持通过可配置的 视觉 token 预算 来控制图片分辨率。支持的 token 预算为：70、140、280、560、1120。

低预算（70/140）：适合分类、添加字幕或视频理解任务，速度快
高预算（560/1120）：适合 OCR、文档解析或读取小文本，细节足

这种设计让模型能根据任务需求灵活调整，既能快速处理大量帧，又能精准识别细节。

怎么用？Transformers 和 llama.cpp 都支持

Gemma 4 的使用非常简单，Transformers 和 llama.cpp 都已经支持。

快速上手

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

# 构造对话
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# 处理输入
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 设置为 True 启用推理模式
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# 生成输出
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# 解析思考输出
processor.parse_response(response)

最佳实践

配置项	推荐值	说明
temperature	1.0	标准化抽样配置
top_p	0.95	标准化抽样配置
top_k	64	标准化抽样配置
思考模式	按需启用	在系统提示开头包含 think 令牌
图片 token 预算	70-1120	根据任务需求选择

技术揭秘：混合注意力 + MoE

核心架构

组件	功能	作用
混合注意力	局部滑动窗口 + 全局注意力	兼顾速度和长上下文理解
Per-Layer Embeddings	每层独立嵌入表	提高设备端参数效率
混合专家 (MoE)	8 个有效专家 / 128 个总专家	推理时只激活部分专家，速度快
统一键值 + p-RoPE	全局层优化	降低长上下文内存占用

关键是 混合注意力机制：将局部滑动窗口注意力和全局注意力交织在一起，确保最后一层始终是全局的。这种设计可提供轻量级模型的处理速度和低内存占用空间，同时不会牺牲复杂长上下文任务所需的深度感知能力。

对于 MoE 模型，通过在推理期间仅激活 40 亿个参数子集，26B A4B 运行速度几乎与 40 亿参数模型一样快，但能力接近 260 亿参数模型。

应用场景：从内容创作到智能体

应用场景	核心能力	实际价值
内容创作	文本生成、代码生成	诗歌、脚本、营销文案、代码补全
聊天机器人	对话式 AI	客户服务、虚拟助理、互动式应用
文档处理	OCR、文档解析	提取、解读和总结视觉数据
音频处理	ASR、语音翻译	会议录音转写、多语言翻译
智能体工作流	函数调用	结构化工具使用、自主代理
研究教育	NLP 研究、语言学习	算法开发、语法更正、写作练习

安全与伦理：Google 的 AI 原则

Gemma 4 由 Google DeepMind 开发，与专有 Gemini 模型一样，经过了严格的安全评估。

评估方法

CSAM 过滤：在数据准备流程的多个阶段应用严格过滤
敏感数据过滤：自动化技术过滤个人信息和其他敏感数据
内容安全评估：防止生成有害内容（儿童性虐待、危险内容、露骨色情、仇恨言论、骚扰）

评估结果

在所有安全测试方面，与之前的 Gemma 模型相比，Gemma 4 在所有内容安全类别中都取得了重大改进。总体而言，Gemma 4 模型在提升安全性方面明显优于 Gemma 3，同时可将无正当理由的拒绝降至较低水平。

写在最后

Gemma 4 的发布，标志着开源多模态模型进入了新阶段。

不再是「能跑就行」的开源模型，而是要做到：从手机到服务器全场景覆盖、密集型 + MoE 双架构、原生推理模式、25.6 万 token 长上下文、140+ 种语言支持——这些能力单独拿出来都很强，组合起来就是降维打击。

更重要的是，Google 这次不仅放出了模型，还提供了 Apache 2.0 开源许可、Transformers 和 llama.cpp 支持、详细的技术文档和最佳实践。开发者可以直接上手，不用等。

多模态开源模型的未来，可能比我们想象的来得更快。

参考资源

Hugging Face：huggingface.co/google/gemm…
官方文档：ai.google.dev/gemma/docs/…

首发地址：

Gemma 4 发布：Google 这次玩真的，4 种规模全开源，从手机到服务器都能跑。