作者:赛博山海经
2026年4月2日深夜,Google DeepMind 悄悄上线了 Gemma 4——没开发布会,没提前预热,就是这么突然。
我看到消息的第一反应是:又来?Google 去年发了 Gemma 3,今年又来?
但看完参数,我收回了这句话。
这次到底发了什么
四个规格,从 20亿 到 310亿 参数:
- E2B(20亿参数)→ 能在你的 Pixel 手机里跑
- E4B(40亿参数)→ 平板和高端手机也没问题
- 26B MoE(总参数260亿,推理只激活38亿)→ 服务器用,小机器也能带
- 31B(310亿参数)→ 这次的重头戏
重点说两个数字:
31B 版本,Arena AI 开源榜单排全球第三——它的对手是 600 亿、700 亿参数的怪物,而 Gemma 4 只有 310 亿。
26B MoE 版本,推理速度和 4B 小模型一样快,但用的是 260 亿参数的知识。
我觉得最值得说的三件事
1. MoE 终于不是PPT了
说实话,MoE(混合专家架构)这两年被吹得很玄乎,什么"高效"、"省算力",但实际体验下来大多还是差那么一口气。
Gemma 4 的 26B MoE 版本是第一个让我觉得"这东西真的能用"的——推理只激活 38 亿参数,但调用的知识储备是 260 亿。
2. E2B 能在手机里跑,这个我没想过
20 亿参数,可以在 Pixel 手机、高通芯片、联发科芯片上完全离线运行。不用联网,延迟几乎为零,支持视觉和音频输入,上下文 128K。
说实话,我之前觉得"端侧 AI"是个噱头,跑个 7B 模型手机就烫得能煎蛋。但 E2B 这个规格,让我重新想了一下。
至少对于程序员来说,本地调试、私有代码处理、离线写东西——现在有正经可用的方案了。
3. 31B 打赢 600B 这件事
之前业界有个默认的"常识":Scaling Law 无敌,参数越大越强,没有捷径。
Gemma 4 31B 把这个常识打碎了。
它不是靠堆参数,是靠训练质量和架构优化。对开发者的实际意义:以后选模型,参数大小不是唯一标准了。小而精的模型,在很多场景下比大而慢的更值得用。
Gemma 4 vs Llama 4
在意本地部署、端侧运行 → Gemma 4 E 系列碾压,Llama 4 最低规格也还是要专业设备。
追求最强开源性能 → Gemma 4 31B 是首选,Arena 全球第三不是白给的。
中文生态 → Llama 4 仍有优势,工具链和社区积累短期不会消失。
程序员怎么用
最快:Google AI Studio — 去 ai.google.dev/playground 直接体验 31B 版本,不用下载。
本地跑:Ollama
ollama pull gemma:2b
ollama run gemma:2b
Hugging Face — 去 huggingface.co/google/gemma-4 下载权重,transformers 加载。
安卓手机 — Google AI Edge Gallery 可直接体验 E2B,纯离线。
一点感受
Gemma 4 这次让我真正在意的,不是它打赢了对谁。而是它让我看到一件事:AI 的能力,在慢慢从大公司手里流出来。
当 20 亿参数能装进口袋,当 310 亿参数打赢 600 亿的庞然大物——开源这条路的意义,才真正开始显现。
首发于公众号 赛博山海经,每周实测 AI 工具,不玩虚的。
如果觉得有用,点个赞,或者在评论区聊聊你的端侧 AI 使用感受。
#AI工具 #Gemma4 #Google #开源模型 #端侧AI #程序员 #AI模型 #本地部署