12B 干翻 27B，跑在你的笔记本上：Google Gemma 4 12B 到底做了什么Google 悄悄丢出了一个

Google 悄悄丢出了一个 12B 的模型，不用编码器，能在笔记本上跑多模态，性能逼近自家 26B。这不是常规迭代，这是架构层面的赌博。

Gemma 4 12B 官方宣传图 图片来源：blog.google/innovation-…

一、先说发生了什么

6 月 3 号，Google DeepMind 发了 Gemma 4 12B。

这不是 Gemma 4 家族的第一批模型——4 月初 31B 和 26B MoE 先出来的时候，已经炸了一轮了。但 12B 这次的发布，信息量其实更大。

因为 Google 做了一件有点激进的事：把视觉编码器和音频编码器全砍了。

传统多模态模型都是"编码器 + LLM 骨干"的拼装结构。视觉信息经过一个独立的 Vision Encoder（通常几百 M 参数），音频经过一个 Conformer 编码器，各自变成 token 再喂给 LLM。Gemma 4 的 31B 和 26B 也是这么干的。

但 12B 不一样。它把原始的图像 patch 和音频波形，直接通过轻量级线性层投射进 LLM 的嵌入空间，所有模态走同一条路——一个纯粹的 decoder-only transformer。

Google 管这叫 "encoder-free, unified multimodal architecture"。

说白了就是：我不要拼装了，我要一体化。

二、这个架构到底省在哪

我先帮你算一笔账。

Gemma 4 31B 有一个约 550M 参数的 Vision Encoder（27 层 Transformer），和 E2B/E4B 上的 300M 音频编码器。12B 把这些都省掉了。

X 上有个叫 @kimmonismus 的开发者拆得很细：

Vision：那个 550M 编码器（27 层 Transformer），变成了一个 35M 的嵌入器，对 48×48 的像素 patch 做一次矩阵乘法。体积缩小了大约 15 倍。

Audio：300M 的 Conformer 编码器完全去掉。原始 16kHz 音频切成 40ms 的帧，直接投射进 LLM。

所以编码没有消失，而是坍缩进了骨干网络。

收益是真实的：

一套共享权重，你可以用 LoRA 一次性微调视觉、音频和文本
内存占用大幅降低，16GB VRAM 的笔记本就能跑
推理延迟更短，因为少了一整个编码器的 forward pass

Gemma 4 12B 性能对比图 图片来源：huggingface.co/blog/gemma4

三、12B 的性能到底什么水平

先看硬数据。Gemma 4 12B IT 在关键 benchmark 上：

Benchmark	Gemma 4 12B	Gemma 4 26B A4B	Gemma 3 27B
MMLU Pro	77.2%	82.6%	67.6%
AIME 2026	77.5%	88.3%	20.8%
GPQA Diamond	78.8%	82.3%	42.4%
LiveCodeBench v6	72.0%	77.1%	29.1%
MMMU Pro（视觉）	69.1%	73.8%	49.7%
MATH-Vision	79.7%	82.4%	46.0%

看懂了吗？

12B 的模型，在几乎所有 benchmark 上，把上一代 27B 按在地上打。 不是微弱优势，是碾压——AIME 从 20.8% 直接跳到 77.5%，GPQA 从 42.4% 到 78.8%。

跟自家 26B MoE 比，12B 大概落后 5-6 个百分点，但别忘了：26B MoE 的总参数是 25.2B，12B 只有 11.95B。不到一半的参数量，达到 90% 的性能。

这就是 "byte for byte, the most capable" 的意思——单位参数的智力密度，这玩意儿是目前开放模型里最高的。

Gemma 4 Arena Elo 对比图 图片来源：huggingface.co/blog/gemma4

四、与竞品横向对比：12B 量级谁能打

在 12B 这个参数量级，主要的对手是 Qwen 3 系列和 Mistral Small。

根据 Interconnects AI 的分析，Gemma 4 12B 在编码和推理任务上有明显优势，特别是 Codeforces ELO 达到 1659——这是一个很多 70B 模型都达不到的分数。

但说实话，我还没看到 Qwen 3.6 在 12B 级别的直接 benchmark 对比。目前社区拿 Gemma 4 31B 和 Qwen 3.6 27B 对比的更多，结论是各有胜负：Qwen 在 MMLU Pro 和 GPQA 上略胜，Gemma 在数学竞赛和编程上更强。

一个有意思的观察来自 Interconnects AI 的 Nathan Lambert：

"现在的开放模型发布越来越难评了。像 Qwen 3.5 那种混合架构，工具链在发布一个半月后才真正能跑顺。而 Gemma 4 因为架构相对传统（dense + 混合注意力），day-one 工具支持就好得多。"

这话说到点上了。模型再强，跑不起来就是废的。 Gemma 4 12B 在这一点上做得很好——Hugging Face Transformers、llama.cpp、Ollama、MLX、vLLM，第一天就全通了。

五、真实使用场景：16GB 笔记本能干什么

这才是我最关心的部分。

Demis Hassabis 在 X 上说：

"庆祝 Gemma 4 下载量突破 1.5 亿，发布新的 Gemma 4 12B 模型！它非常强大，而且小到可以在只有 16GB VRAM 的笔记本上本地运行。Apache 2.0 许可证——快乐创造！"

16GB VRAM。这意味着 M1/M2/M3/M4 的 MacBook Pro，或者一台 4070/4080 的游戏本，就能跑起来。

实际能干什么？

1. 本地代码助手。 Ollama 一行命令 ollama run gemma4 就能跑起来。配合 VS Code 的 GitHub Copilot 插件，可以做一个完全离线的代码补全和审查工具。对于不方便连外网的企业场景，这太有用了。

3. 文档 OCR 和理解。 支持可变分辨率，token 预算从 70 到 1120 可调。低预算做分类和字幕，高预算做 OCR 和小字文档解析。这对处理扫描件 PDF、发票、表格特别实用。

4. 音频转写。 12B 支持 30 秒以内的音频输入，支持语音识别和语音到文本翻译。虽然不能处理长音频，但作为嵌入式设备的语音交互前端已经够用。

5. 屏幕理解。 Gemma 4 的 GUI 检测能力很有意思——它能输出原生 JSON 格式的 UI 元素边界框，坐标系基于 1000×1000 的图片空间。这意味着你可以用它做 RPA（机器人流程自动化），让模型"看懂"屏幕上的按钮和输入框。

Gemma 4 GUI 检测示例 图片来源：huggingface.co/blog/gemma4

六、社区声音：不是无脑吹，但确实很兴奋

我把 X、Hugging Face、YouTube 上前几天的讨论翻了一遍，三种声音比较突出：

兴奋派（主流）：

Hugging Face 上的热评："这感觉像是把 70B+ 参数模型搬到了家用电脑上"
LinkedIn 上有人做了实测：用 Unsloth 微调后，平均响应时间从 12.3s 降到了 9.8s
@VaibhavSisinty 的总结帖拿到了 22K 浏览："Google 刚刚做了一个疯狂的东西——不用网络，不用订阅，不用云，就你的电脑"

技术拆解派：

@kimmonismus 的深度拆解是最硬核的，把 PLE（Per-Layer Embeddings）、Shared KV Cache、编码器坍缩的细节全扒了
Maarten Grootendorst 写了一篇 Visual Guide to Gemma 4，架构图画得非常清楚

质疑派（少数但重要）：

有人指出 12B 的 CoVoST 翻译分数是 38.5，排除了中文——音频能力可能还有差距
音频最长只支持 30 秒，视频最长 60 秒，对实际产品来说可能不够
训练数据截止 2025 年 1 月，信息时效性有限

说实话，我自己最担心的是：encoder-free 这个路线，在复杂视觉场景下到底能扛多久？ 砍掉专用编码器确实省了内存，但视觉理解的天花板会不会也跟着降低？这个问题，目前没有足够多的实际测试能回答。

七、Apache 2.0：这才是真正的开放

有一个容易被忽略但特别重要的事：Gemma 4 用的是 Apache 2.0 许可证。

之前的 Gemma 1/2/3 都是"open-weight"——权重公开下载，但用的是 Google 自定义的使用条款，有各种限制。Gemma 4 是第一次改成 Apache 2.0。

这意味着什么？

商业使用，没有任何收入限制
可以自由修改、分发、 sublicense
不需要向 Google 报告或申请

Mashable 的报道直接说："Gemma 4 现在是 open AND open source"。

在一个 Llama 4 还在用自定义许可、各种"开源洗绿"满天飞的行业里，Google 这一步走得挺实在。

八、我的判断

先说结论：Gemma 4 12B 不是最强的模型，但它可能是 2026 年上半年"最实用"的开放模型。

技术判断： encoder-free 的架构选择是这代模型最有价值的技术赌注。如果 12B 的视觉理解在实际场景中真的能接近带专用编码器的 31B，那说明"编码器坍缩"这条路走通了，以后大家都会跟进。如果走不通，那 Google 也就是在 12B 这个尺寸上试了个错，不影响 31B 和 26B 的主力。这是一个不对称的赌注——赌对了改变范式，赌错了损失有限。

行业判断： 开放模型正在进入"效率军备竞赛"阶段。不是谁的参数最多谁赢，而是谁的单位参数智力密度最高谁赢。Gemma 4 12B 用不到 12B 的参数打败了上一代 27B，这就是方向。对开发者来说，这意味着你不再需要 A100 集群才能跑一个像样的多模态模型。

实践判断： 如果你是一个独立开发者或者小团队，Gemma 4 12B 值得立刻试一试。下载 Ollama，ollama run gemma4，五分钟就能跑起来。特别适合这三个场景：离线代码助手、文档/截图 OCR、轻量级 Agent。但如果你的任务重度依赖长音频理解（>30 秒）或者需要最强的推理能力，31B 或者直接用 Gemini API 可能更合适。

坦诚说，我还没在自己的项目里跑过 12B。上面这些判断，一半来自 benchmark 数据和社区反馈，一半来自我对架构设计的理解。等我这周实际用了之后，会再写一篇实践报告。

最后说一句。

Gemma 4 12B 的真正意义不是"又一个开源模型"。它的意义是证明了一件事：多模态能力不再需要庞大的编码器，12B 参数加一个巧妙的架构就够了。 当最先进的多模态 AI 可以跑在一台笔记本上，而不需要数据中心的时候，整个应用生态都会变。

开放模型的终局，不是比谁更大，而是比谁能更小、更快、更聪明。

这个方向，Gemma 4 12B 走在了最前面。

参考资料

话题标签：#Gemma4 #GoogleDeepMind #开源模型 #多模态AI #本地部署 #Apache2 #EncoderFree