Google 悄悄丢出了一个 12B 的模型,不用编码器,能在笔记本上跑多模态,性能逼近自家 26B。这不是常规迭代,这是架构层面的赌博。
一、先说发生了什么
6 月 3 号,Google DeepMind 发了 Gemma 4 12B。
这不是 Gemma 4 家族的第一批模型——4 月初 31B 和 26B MoE 先出来的时候,已经炸了一轮了。但 12B 这次的发布,信息量其实更大。
因为 Google 做了一件有点激进的事:把视觉编码器和音频编码器全砍了。
传统多模态模型都是"编码器 + LLM 骨干"的拼装结构。视觉信息经过一个独立的 Vision Encoder(通常几百 M 参数),音频经过一个 Conformer 编码器,各自变成 token 再喂给 LLM。Gemma 4 的 31B 和 26B 也是这么干的。
但 12B 不一样。它把原始的图像 patch 和音频波形,直接通过轻量级线性层投射进 LLM 的嵌入空间,所有模态走同一条路——一个纯粹的 decoder-only transformer。
Google 管这叫 "encoder-free, unified multimodal architecture"。
说白了就是:我不要拼装了,我要一体化。
二、这个架构到底省在哪
我先帮你算一笔账。
Gemma 4 31B 有一个约 550M 参数的 Vision Encoder(27 层 Transformer),和 E2B/E4B 上的 300M 音频编码器。12B 把这些都省掉了。
X 上有个叫 @kimmonismus 的开发者拆得很细:
Vision:那个 550M 编码器(27 层 Transformer),变成了一个 35M 的嵌入器,对 48×48 的像素 patch 做一次矩阵乘法。体积缩小了大约 15 倍。
Audio:300M 的 Conformer 编码器完全去掉。原始 16kHz 音频切成 40ms 的帧,直接投射进 LLM。
所以编码没有消失,而是坍缩进了骨干网络。
收益是真实的:
- 一套共享权重,你可以用 LoRA 一次性微调视觉、音频和文本
- 内存占用大幅降低,16GB VRAM 的笔记本就能跑
- 推理延迟更短,因为少了一整个编码器的 forward pass
图片来源:huggingface.co/blog/gemma4
三、12B 的性能到底什么水平
先看硬数据。Gemma 4 12B IT 在关键 benchmark 上:
| Benchmark | Gemma 4 12B | Gemma 4 26B A4B | Gemma 3 27B |
|---|---|---|---|
| MMLU Pro | 77.2% | 82.6% | 67.6% |
| AIME 2026 | 77.5% | 88.3% | 20.8% |
| GPQA Diamond | 78.8% | 82.3% | 42.4% |
| LiveCodeBench v6 | 72.0% | 77.1% | 29.1% |
| MMMU Pro(视觉) | 69.1% | 73.8% | 49.7% |
| MATH-Vision | 79.7% | 82.4% | 46.0% |
看懂了吗?
12B 的模型,在几乎所有 benchmark 上,把上一代 27B 按在地上打。 不是微弱优势,是碾压——AIME 从 20.8% 直接跳到 77.5%,GPQA 从 42.4% 到 78.8%。
跟自家 26B MoE 比,12B 大概落后 5-6 个百分点,但别忘了:26B MoE 的总参数是 25.2B,12B 只有 11.95B。不到一半的参数量,达到 90% 的性能。
这就是 "byte for byte, the most capable" 的意思——单位参数的智力密度,这玩意儿是目前开放模型里最高的。
图片来源:huggingface.co/blog/gemma4
四、与竞品横向对比:12B 量级谁能打
在 12B 这个参数量级,主要的对手是 Qwen 3 系列和 Mistral Small。
根据 Interconnects AI 的分析,Gemma 4 12B 在编码和推理任务上有明显优势,特别是 Codeforces ELO 达到 1659——这是一个很多 70B 模型都达不到的分数。
但说实话,我还没看到 Qwen 3.6 在 12B 级别的直接 benchmark 对比。目前社区拿 Gemma 4 31B 和 Qwen 3.6 27B 对比的更多,结论是各有胜负:Qwen 在 MMLU Pro 和 GPQA 上略胜,Gemma 在数学竞赛和编程上更强。
一个有意思的观察来自 Interconnects AI 的 Nathan Lambert:
"现在的开放模型发布越来越难评了。像 Qwen 3.5 那种混合架构,工具链在发布一个半月后才真正能跑顺。而 Gemma 4 因为架构相对传统(dense + 混合注意力),day-one 工具支持就好得多。"
这话说到点上了。模型再强,跑不起来就是废的。 Gemma 4 12B 在这一点上做得很好——Hugging Face Transformers、llama.cpp、Ollama、MLX、vLLM,第一天就全通了。
五、真实使用场景:16GB 笔记本能干什么
这才是我最关心的部分。
Demis Hassabis 在 X 上说:
"庆祝 Gemma 4 下载量突破 1.5 亿,发布新的 Gemma 4 12B 模型!它非常强大,而且小到可以在只有 16GB VRAM 的笔记本上本地运行。Apache 2.0 许可证——快乐创造!"
16GB VRAM。这意味着 M1/M2/M3/M4 的 MacBook Pro,或者一台 4070/4080 的游戏本,就能跑起来。
实际能干什么?
1. 本地代码助手。 Ollama 一行命令 ollama run gemma4 就能跑起来。配合 VS Code 的 GitHub Copilot 插件,可以做一个完全离线的代码补全和审查工具。对于不方便连外网的企业场景,这太有用了。
2. 多模态 Agent。 12B 原生支持 function calling,有 6 个专用特殊 token(<|tool|>、<|tool_call|>、<|tool_result> 等)。YouTube 上有人用 Gemma 4 + Google Maps MCP 做了一个地理位置 Agent。Ollama 官方也给出了 Hermes Agent、Codex、OpenCode 等 Agent 的启动命令。
3. 文档 OCR 和理解。 支持可变分辨率,token 预算从 70 到 1120 可调。低预算做分类和字幕,高预算做 OCR 和小字文档解析。这对处理扫描件 PDF、发票、表格特别实用。
4. 音频转写。 12B 支持 30 秒以内的音频输入,支持语音识别和语音到文本翻译。虽然不能处理长音频,但作为嵌入式设备的语音交互前端已经够用。
5. 屏幕理解。 Gemma 4 的 GUI 检测能力很有意思——它能输出原生 JSON 格式的 UI 元素边界框,坐标系基于 1000×1000 的图片空间。这意味着你可以用它做 RPA(机器人流程自动化),让模型"看懂"屏幕上的按钮和输入框。
图片来源:huggingface.co/blog/gemma4
六、社区声音:不是无脑吹,但确实很兴奋
我把 X、Hugging Face、YouTube 上前几天的讨论翻了一遍,三种声音比较突出:
兴奋派(主流):
- Hugging Face 上的热评:"这感觉像是把 70B+ 参数模型搬到了家用电脑上"
- LinkedIn 上有人做了实测:用 Unsloth 微调后,平均响应时间从 12.3s 降到了 9.8s
- @VaibhavSisinty 的总结帖拿到了 22K 浏览:"Google 刚刚做了一个疯狂的东西——不用网络,不用订阅,不用云,就你的电脑"
技术拆解派:
- @kimmonismus 的深度拆解是最硬核的,把 PLE(Per-Layer Embeddings)、Shared KV Cache、编码器坍缩的细节全扒了
- Maarten Grootendorst 写了一篇 Visual Guide to Gemma 4,架构图画得非常清楚
质疑派(少数但重要):
- 有人指出 12B 的 CoVoST 翻译分数是 38.5,排除了中文——音频能力可能还有差距
- 音频最长只支持 30 秒,视频最长 60 秒,对实际产品来说可能不够
- 训练数据截止 2025 年 1 月,信息时效性有限
说实话,我自己最担心的是:encoder-free 这个路线,在复杂视觉场景下到底能扛多久? 砍掉专用编码器确实省了内存,但视觉理解的天花板会不会也跟着降低?这个问题,目前没有足够多的实际测试能回答。
七、Apache 2.0:这才是真正的开放
有一个容易被忽略但特别重要的事:Gemma 4 用的是 Apache 2.0 许可证。
之前的 Gemma 1/2/3 都是"open-weight"——权重公开下载,但用的是 Google 自定义的使用条款,有各种限制。Gemma 4 是第一次改成 Apache 2.0。
这意味着什么?
- 商业使用,没有任何收入限制
- 可以自由修改、分发、 sublicense
- 不需要向 Google 报告或申请
Mashable 的报道直接说:"Gemma 4 现在是 open AND open source"。
在一个 Llama 4 还在用自定义许可、各种"开源洗绿"满天飞的行业里,Google 这一步走得挺实在。
八、我的判断
先说结论:Gemma 4 12B 不是最强的模型,但它可能是 2026 年上半年"最实用"的开放模型。
技术判断: encoder-free 的架构选择是这代模型最有价值的技术赌注。如果 12B 的视觉理解在实际场景中真的能接近带专用编码器的 31B,那说明"编码器坍缩"这条路走通了,以后大家都会跟进。如果走不通,那 Google 也就是在 12B 这个尺寸上试了个错,不影响 31B 和 26B 的主力。这是一个不对称的赌注——赌对了改变范式,赌错了损失有限。
行业判断: 开放模型正在进入"效率军备竞赛"阶段。不是谁的参数最多谁赢,而是谁的单位参数智力密度最高谁赢。Gemma 4 12B 用不到 12B 的参数打败了上一代 27B,这就是方向。对开发者来说,这意味着你不再需要 A100 集群才能跑一个像样的多模态模型。
实践判断: 如果你是一个独立开发者或者小团队,Gemma 4 12B 值得立刻试一试。下载 Ollama,ollama run gemma4,五分钟就能跑起来。特别适合这三个场景:离线代码助手、文档/截图 OCR、轻量级 Agent。但如果你的任务重度依赖长音频理解(>30 秒)或者需要最强的推理能力,31B 或者直接用 Gemini API 可能更合适。
坦诚说,我还没在自己的项目里跑过 12B。上面这些判断,一半来自 benchmark 数据和社区反馈,一半来自我对架构设计的理解。等我这周实际用了之后,会再写一篇实践报告。
最后说一句。
Gemma 4 12B 的真正意义不是"又一个开源模型"。它的意义是证明了一件事:多模态能力不再需要庞大的编码器,12B 参数加一个巧妙的架构就够了。 当最先进的多模态 AI 可以跑在一台笔记本上,而不需要数据中心的时候,整个应用生态都会变。
开放模型的终局,不是比谁更大,而是比谁能更小、更快、更聪明。
这个方向,Gemma 4 12B 走在了最前面。
参考资料
- Introducing Gemma 4 12B: a unified, encoder-free multimodal model - Google Blog
- Gemma 4: Byte for byte, the most capable open models - Google Blog
- Gemma 4 model card - Google AI for Developers
- Welcome Gemma 4: Frontier multimodal intelligence on device - Hugging Face Blog
- A Visual Guide to Gemma 4 - Maarten Grootendorst
- Gemma 4 and what makes an open model succeed - Interconnects AI
- Gemma 4 vs Llama 4 vs Qwen 3.5: 2026 Comparison Guide - Lushbinary
- Google Gemma 官方 X 发布
- Demis Hassabis X 发帖
- Google 官方 X 发布
- Gemma 4 - Ollama
- Gemma 4 - LM Studio
- Google launches Gemma 4 - Mashable
话题标签:#Gemma4 #GoogleDeepMind #开源模型 #多模态AI #本地部署 #Apache2 #EncoderFree