Google DeepMind 又放大招了!4 月 2 日,Gemma 4 系列正式发布,这次真的是「全家桶」——从 23 亿到 307 亿参数,密集型 + MoE 混合专家架构全都有,上下文窗口最高 25.6 万 token,还原生支持推理模式。更狠的是,全系 Apache 2.0 开源,从手机到服务器都能跑。
先看这组数字:4 种规模、25.6 万 token 上下文、140+ 种语言、原生推理模式。什么概念?一部技术文档,它能一口气读完还能给你做推理分析。
模型家族:从手机到服务器,全场景覆盖
Gemma 4 这次不是单打独斗,而是直接推出了 4 个型号,覆盖从移动设备到数据中心的全场景。
密集模型:三兄弟各有所长
| 型号 | 参数规模 | 上下文长度 | 支持模态 | 定位 |
|---|---|---|---|---|
| E2B | 23 亿有效参数(含嵌入 51 亿) | 128k token | 文本、图片、音频 | 移动端/边缘设备 |
| E4B | 45 亿有效参数(含嵌入 80 亿) | 128k token | 文本、图片、音频 | 笔记本/边缘设备 |
| 31B Dense | 307 亿 | 256k token | 文本、图片 | 工作站/服务器 |
E2B 和 E4B 中的「E」表示「有效参数」。这两个小型号用了 Per-Layer Embeddings (PLE) 技术——简单说,就是每个解码器层都有自己的小型嵌入表,嵌入表很大但只用于快速查找,所以有效参数数量远小于总数。这是专为设备端优化的设计,让模型能在手机和笔记本上高效运行。
MoE 模型:速度与能力的完美平衡
| 型号 | 参数总数 | 有效参数 | 上下文长度 | 专家数量 | 支持模态 |
|---|---|---|---|---|---|
| 26B A4B | 252 亿 | 38 亿 | 256k token | 8 个有效 / 128 个总数 + 1 个共享 | 文本、图片 |
26B A4B 中的「A」表示「有效参数」。通过混合专家架构,推理时只激活 40 亿参数子集,运行速度几乎和 40 亿参数模型一样快,但能力接近 260 亿参数模型。这是快速推理的绝佳选择。
关键是 Hybrid Attention 混合注意力机制:局部滑动窗口注意力 + 全局注意力交织,最后一层始终是全局的。这种设计既有轻量级模型的处理速度和低内存占用,又不牺牲复杂长上下文任务所需的深度感知能力。
性能炸裂:多个基准测试拿下 SOTA
数据不会骗人。Gemma 4 这次在多个基准测试上直接拿下 SOTA。
核心能力对比
| Benchmark | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B |
|---|---|---|---|---|---|
| MMLU Pro | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| AIME 2026 无工具 | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| Codeforces ELO | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
看这组数据:31B 在 AIME 2026(数学竞赛)上拿下 89.2%,在 LiveCodeBench(编码能力)上拿下 80.0%,Codeforces ELO 达到 2150——这是什么水平?已经超过大部分人类程序员了。
更让人眼前一亮的是,即使是最小的 E2B,在 MMLU Pro 上也能拿到 60.0%,比 Gemma 3 27B 的 67.6% 只差 7.6 个百分点,但参数量只有它的十分之一不到。
多模态能力:视觉理解全面提升
| 能力维度 | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|---|---|
| MMMU Pro | 76.9% | 73.8% | 52.6% | 44.2% |
| MATH-Vision | 85.6% | 82.4% | 59.5% | 52.4% |
| OmniDocBench 1.5(越低越好) | 0.131 | 0.149 | 0.181 | 0.290 |
在视觉理解方面,31B 在 MATH-Vision 上拿下 85.6%,在文档解析(OmniDocBench)上编辑距离只有 0.131——这意味着它能精准识别和理解文档内容,OCR 能力直接拉满。
音频能力:E2B/E4B 独有
| 能力维度 | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|
| CoVoST(语音翻译) | 35.54 | 33.47 |
| FLEURS(语音识别,越低越好) | 0.08 | 0.09 |
E2B 和 E4B 原生支持音频输入,在语音识别和翻译任务上表现优异。
长上下文:真正的「看完整本书」
| 上下文长度 | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B |
|---|---|---|---|---|
| MRCR v2 8 针 128k(平均) | 66.4% | 44.1% | 25.4% | 19.1% |
31B 在 12.8 万 token 的长上下文任务上拿下 66.4%,这是什么概念?一本中等长度的技术书籍,它能一口气读完还能回答问题。
核心功能:不只是多模态,还有推理模式
Gemma 4 不是简单的多模态模型,而是带了一堆「黑科技」。
功能一览
| 功能 | 支持型号 | 说明 |
|---|---|---|
| 思考模式 | 全系支持 | 内置推理模式,可让模型在回答之前进行分步思考 |
| 长上下文 | 全系支持 | E2B/E4B 支持 12.8 万 token,26B A4B/31B 支持 25.6 万 token |
| 图片理解 | 全系支持 | 对象检测、文档/PDF 解析、OCR、手写识别、可变宽高比和分辨率 |
| 视频理解 | 全系支持 | 通过处理帧序列来分析视频 |
| 音频处理 | E2B/E4B | 自动语音识别 (ASR) 和语音翻译(支持多种语言) |
| 函数调用 | 全系支持 | 原生支持结构化工具使用,可实现智能体工作流 |
| 多语言 | 全系支持 | 开箱即用支持 35+ 种语言,预训练了 140+ 种语言 |
黑科技:思考模式
最让人眼前一亮的是 思考模式(Thinking Mode)。
简单说,就是模型在回答之前会先「想一想」。通过在系统提示中包含 {"<|think|>"} 令牌来启用思考,模型会输出内部推理过程,然后再给出最终答案。
这是 Gemma 4 独有的「涌现能力」,让模型能处理更复杂的推理任务。在 AIME 2026(数学竞赛)和 Codeforces(编程竞赛)上的表现就是最好的证明。
可变图片分辨率:细节与速度的平衡
Gemma 4 支持通过可配置的 视觉 token 预算 来控制图片分辨率。支持的 token 预算为:70、140、280、560、1120。
- 低预算(70/140):适合分类、添加字幕或视频理解任务,速度快
- 高预算(560/1120):适合 OCR、文档解析或读取小文本,细节足
这种设计让模型能根据任务需求灵活调整,既能快速处理大量帧,又能精准识别细节。
怎么用?Transformers 和 llama.cpp 都支持
Gemma 4 的使用非常简单,Transformers 和 llama.cpp 都已经支持。
快速上手
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-E2B-it"
# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype=torch.bfloat16,
device_map="auto"
)
# 构造对话
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
# 处理输入
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # 设置为 True 启用推理模式
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# 生成输出
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# 解析思考输出
processor.parse_response(response)
最佳实践
| 配置项 | 推荐值 | 说明 |
|---|---|---|
| temperature | 1.0 | 标准化抽样配置 |
| top_p | 0.95 | 标准化抽样配置 |
| top_k | 64 | 标准化抽样配置 |
| 思考模式 | 按需启用 | 在系统提示开头包含 think 令牌 |
| 图片 token 预算 | 70-1120 | 根据任务需求选择 |
技术揭秘:混合注意力 + MoE
核心架构
| 组件 | 功能 | 作用 |
|---|---|---|
| 混合注意力 | 局部滑动窗口 + 全局注意力 | 兼顾速度和长上下文理解 |
| Per-Layer Embeddings | 每层独立嵌入表 | 提高设备端参数效率 |
| 混合专家 (MoE) | 8 个有效专家 / 128 个总专家 | 推理时只激活部分专家,速度快 |
| 统一键值 + p-RoPE | 全局层优化 | 降低长上下文内存占用 |
关键是 混合注意力机制:将局部滑动窗口注意力和全局注意力交织在一起,确保最后一层始终是全局的。这种设计可提供轻量级模型的处理速度和低内存占用空间,同时不会牺牲复杂长上下文任务所需的深度感知能力。
对于 MoE 模型,通过在推理期间仅激活 40 亿个参数子集,26B A4B 运行速度几乎与 40 亿参数模型一样快,但能力接近 260 亿参数模型。
应用场景:从内容创作到智能体
| 应用场景 | 核心能力 | 实际价值 |
|---|---|---|
| 内容创作 | 文本生成、代码生成 | 诗歌、脚本、营销文案、代码补全 |
| 聊天机器人 | 对话式 AI | 客户服务、虚拟助理、互动式应用 |
| 文档处理 | OCR、文档解析 | 提取、解读和总结视觉数据 |
| 音频处理 | ASR、语音翻译 | 会议录音转写、多语言翻译 |
| 智能体工作流 | 函数调用 | 结构化工具使用、自主代理 |
| 研究教育 | NLP 研究、语言学习 | 算法开发、语法更正、写作练习 |
安全与伦理:Google 的 AI 原则
Gemma 4 由 Google DeepMind 开发,与专有 Gemini 模型一样,经过了严格的安全评估。
评估方法
- CSAM 过滤:在数据准备流程的多个阶段应用严格过滤
- 敏感数据过滤:自动化技术过滤个人信息和其他敏感数据
- 内容安全评估:防止生成有害内容(儿童性虐待、危险内容、露骨色情、仇恨言论、骚扰)
评估结果
在所有安全测试方面,与之前的 Gemma 模型相比,Gemma 4 在所有内容安全类别中都取得了重大改进。总体而言,Gemma 4 模型在提升安全性方面明显优于 Gemma 3,同时可将无正当理由的拒绝降至较低水平。
写在最后
Gemma 4 的发布,标志着开源多模态模型进入了新阶段。
不再是「能跑就行」的开源模型,而是要做到:从手机到服务器全场景覆盖、密集型 + MoE 双架构、原生推理模式、25.6 万 token 长上下文、140+ 种语言支持——这些能力单独拿出来都很强,组合起来就是降维打击。
更重要的是,Google 这次不仅放出了模型,还提供了 Apache 2.0 开源许可、Transformers 和 llama.cpp 支持、详细的技术文档和最佳实践。开发者可以直接上手,不用等。
多模态开源模型的未来,可能比我们想象的来得更快。
参考资源
- Hugging Face:huggingface.co/google/gemm…
- 官方文档:ai.google.dev/gemma/docs/…