Gemma 4 发布:Google 这次玩真的,4 种规模全开源,从手机到服务器都能跑。

0 阅读9分钟

Google DeepMind 又放大招了!4 月 2 日,Gemma 4 系列正式发布,这次真的是「全家桶」——从 23 亿到 307 亿参数,密集型 + MoE 混合专家架构全都有,上下文窗口最高 25.6 万 token,还原生支持推理模式。更狠的是,全系 Apache 2.0 开源,从手机到服务器都能跑。

先看这组数字:4 种规模25.6 万 token 上下文140+ 种语言原生推理模式。什么概念?一部技术文档,它能一口气读完还能给你做推理分析。

模型家族:从手机到服务器,全场景覆盖

Gemma 4 这次不是单打独斗,而是直接推出了 4 个型号,覆盖从移动设备到数据中心的全场景。

密集模型:三兄弟各有所长

型号参数规模上下文长度支持模态定位
E2B23 亿有效参数(含嵌入 51 亿)128k token文本、图片、音频移动端/边缘设备
E4B45 亿有效参数(含嵌入 80 亿)128k token文本、图片、音频笔记本/边缘设备
31B Dense307 亿256k token文本、图片工作站/服务器

E2B 和 E4B 中的「E」表示「有效参数」。这两个小型号用了 Per-Layer Embeddings (PLE) 技术——简单说,就是每个解码器层都有自己的小型嵌入表,嵌入表很大但只用于快速查找,所以有效参数数量远小于总数。这是专为设备端优化的设计,让模型能在手机和笔记本上高效运行。

MoE 模型:速度与能力的完美平衡

型号参数总数有效参数上下文长度专家数量支持模态
26B A4B252 亿38 亿256k token8 个有效 / 128 个总数 + 1 个共享文本、图片

26B A4B 中的「A」表示「有效参数」。通过混合专家架构,推理时只激活 40 亿参数子集,运行速度几乎和 40 亿参数模型一样快,但能力接近 260 亿参数模型。这是快速推理的绝佳选择。

关键是 Hybrid Attention 混合注意力机制:局部滑动窗口注意力 + 全局注意力交织,最后一层始终是全局的。这种设计既有轻量级模型的处理速度和低内存占用,又不牺牲复杂长上下文任务所需的深度感知能力。

性能炸裂:多个基准测试拿下 SOTA

数据不会骗人。Gemma 4 这次在多个基准测试上直接拿下 SOTA。

核心能力对比

BenchmarkGemma 4 31BGemma 4 26B A4BGemma 4 E4BGemma 4 E2BGemma 3 27B
MMLU Pro85.2%82.6%69.4%60.0%67.6%
AIME 2026 无工具89.2%88.3%42.5%37.5%20.8%
LiveCodeBench v680.0%77.1%52.0%44.0%29.1%
Codeforces ELO21501718940633110
GPQA Diamond84.3%82.3%58.6%43.4%42.4%

看这组数据:31B 在 AIME 2026(数学竞赛)上拿下 89.2%,在 LiveCodeBench(编码能力)上拿下 80.0%,Codeforces ELO 达到 2150——这是什么水平?已经超过大部分人类程序员了。

更让人眼前一亮的是,即使是最小的 E2B,在 MMLU Pro 上也能拿到 60.0%,比 Gemma 3 27B 的 67.6% 只差 7.6 个百分点,但参数量只有它的十分之一不到。

多模态能力:视觉理解全面提升

能力维度Gemma 4 31BGemma 4 26B A4BGemma 4 E4BGemma 4 E2B
MMMU Pro76.9%73.8%52.6%44.2%
MATH-Vision85.6%82.4%59.5%52.4%
OmniDocBench 1.5(越低越好)0.1310.1490.1810.290

在视觉理解方面,31B 在 MATH-Vision 上拿下 85.6%,在文档解析(OmniDocBench)上编辑距离只有 0.131——这意味着它能精准识别和理解文档内容,OCR 能力直接拉满。

音频能力:E2B/E4B 独有

能力维度Gemma 4 E4BGemma 4 E2B
CoVoST(语音翻译)35.5433.47
FLEURS(语音识别,越低越好)0.080.09

E2B 和 E4B 原生支持音频输入,在语音识别和翻译任务上表现优异。

长上下文:真正的「看完整本书」

上下文长度Gemma 4 31BGemma 4 26B A4BGemma 4 E4BGemma 4 E2B
MRCR v2 8 针 128k(平均)66.4%44.1%25.4%19.1%

31B 在 12.8 万 token 的长上下文任务上拿下 66.4%,这是什么概念?一本中等长度的技术书籍,它能一口气读完还能回答问题。

核心功能:不只是多模态,还有推理模式

Gemma 4 不是简单的多模态模型,而是带了一堆「黑科技」。

功能一览

功能支持型号说明
思考模式全系支持内置推理模式,可让模型在回答之前进行分步思考
长上下文全系支持E2B/E4B 支持 12.8 万 token,26B A4B/31B 支持 25.6 万 token
图片理解全系支持对象检测、文档/PDF 解析、OCR、手写识别、可变宽高比和分辨率
视频理解全系支持通过处理帧序列来分析视频
音频处理E2B/E4B自动语音识别 (ASR) 和语音翻译(支持多种语言)
函数调用全系支持原生支持结构化工具使用,可实现智能体工作流
多语言全系支持开箱即用支持 35+ 种语言,预训练了 140+ 种语言

黑科技:思考模式

最让人眼前一亮的是 思考模式(Thinking Mode)

简单说,就是模型在回答之前会先「想一想」。通过在系统提示中包含 {"<|think|>"} 令牌来启用思考,模型会输出内部推理过程,然后再给出最终答案。

这是 Gemma 4 独有的「涌现能力」,让模型能处理更复杂的推理任务。在 AIME 2026(数学竞赛)和 Codeforces(编程竞赛)上的表现就是最好的证明。

可变图片分辨率:细节与速度的平衡

Gemma 4 支持通过可配置的 视觉 token 预算 来控制图片分辨率。支持的 token 预算为:70、140、280、560、1120

  • 低预算(70/140):适合分类、添加字幕或视频理解任务,速度快
  • 高预算(560/1120):适合 OCR、文档解析或读取小文本,细节足

这种设计让模型能根据任务需求灵活调整,既能快速处理大量帧,又能精准识别细节。

怎么用?Transformers 和 llama.cpp 都支持

Gemma 4 的使用非常简单,Transformers 和 llama.cpp 都已经支持。

快速上手

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# 加载模型
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

# 构造对话
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# 处理输入
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 设置为 True 启用推理模式
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# 生成输出
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# 解析思考输出
processor.parse_response(response)

最佳实践

配置项推荐值说明
temperature1.0标准化抽样配置
top_p0.95标准化抽样配置
top_k64标准化抽样配置
思考模式按需启用在系统提示开头包含 think 令牌
图片 token 预算70-1120根据任务需求选择

技术揭秘:混合注意力 + MoE

核心架构

组件功能作用
混合注意力局部滑动窗口 + 全局注意力兼顾速度和长上下文理解
Per-Layer Embeddings每层独立嵌入表提高设备端参数效率
混合专家 (MoE)8 个有效专家 / 128 个总专家推理时只激活部分专家,速度快
统一键值 + p-RoPE全局层优化降低长上下文内存占用

关键是 混合注意力机制:将局部滑动窗口注意力和全局注意力交织在一起,确保最后一层始终是全局的。这种设计可提供轻量级模型的处理速度和低内存占用空间,同时不会牺牲复杂长上下文任务所需的深度感知能力。

对于 MoE 模型,通过在推理期间仅激活 40 亿个参数子集,26B A4B 运行速度几乎与 40 亿参数模型一样快,但能力接近 260 亿参数模型。

应用场景:从内容创作到智能体

应用场景核心能力实际价值
内容创作文本生成、代码生成诗歌、脚本、营销文案、代码补全
聊天机器人对话式 AI客户服务、虚拟助理、互动式应用
文档处理OCR、文档解析提取、解读和总结视觉数据
音频处理ASR、语音翻译会议录音转写、多语言翻译
智能体工作流函数调用结构化工具使用、自主代理
研究教育NLP 研究、语言学习算法开发、语法更正、写作练习

安全与伦理:Google 的 AI 原则

Gemma 4 由 Google DeepMind 开发,与专有 Gemini 模型一样,经过了严格的安全评估。

评估方法

  • CSAM 过滤:在数据准备流程的多个阶段应用严格过滤
  • 敏感数据过滤:自动化技术过滤个人信息和其他敏感数据
  • 内容安全评估:防止生成有害内容(儿童性虐待、危险内容、露骨色情、仇恨言论、骚扰)

评估结果

在所有安全测试方面,与之前的 Gemma 模型相比,Gemma 4 在所有内容安全类别中都取得了重大改进。总体而言,Gemma 4 模型在提升安全性方面明显优于 Gemma 3,同时可将无正当理由的拒绝降至较低水平。

写在最后

Gemma 4 的发布,标志着开源多模态模型进入了新阶段。

不再是「能跑就行」的开源模型,而是要做到:从手机到服务器全场景覆盖密集型 + MoE 双架构原生推理模式25.6 万 token 长上下文140+ 种语言支持——这些能力单独拿出来都很强,组合起来就是降维打击。

更重要的是,Google 这次不仅放出了模型,还提供了 Apache 2.0 开源许可Transformers 和 llama.cpp 支持详细的技术文档和最佳实践。开发者可以直接上手,不用等。

多模态开源模型的未来,可能比我们想象的来得更快。


参考资源

首发地址:

Gemma 4 发布:Google 这次玩真的,4 种规模全开源,从手机到服务器都能跑。