谷歌开源 Gemma 4：31B 打爆 600B，端侧 AI 的时代真的来了作者：赛博山海经 2026年4月2日深夜，G

作者：赛博山海经

2026年4月2日深夜，Google DeepMind 悄悄上线了 Gemma 4——没开发布会，没提前预热，就是这么突然。

我看到消息的第一反应是：又来？Google 去年发了 Gemma 3，今年又来？

但看完参数，我收回了这句话。

这次到底发了什么

四个规格，从 20亿到 310亿参数：

重点说两个数字：

31B 版本，Arena AI 开源榜单排全球第三——它的对手是 600 亿、700 亿参数的怪物，而 Gemma 4 只有 310 亿。

26B MoE 版本，推理速度和 4B 小模型一样快，但用的是 260 亿参数的知识。

说实话，MoE（混合专家架构）这两年被吹得很玄乎，什么"高效"、"省算力"，但实际体验下来大多还是差那么一口气。

Gemma 4 的 26B MoE 版本是第一个让我觉得"这东西真的能用"的——推理只激活 38 亿参数，但调用的知识储备是 260 亿。

20 亿参数，可以在 Pixel 手机、高通芯片、联发科芯片上完全离线运行。不用联网，延迟几乎为零，支持视觉和音频输入，上下文 128K。

说实话，我之前觉得"端侧 AI"是个噱头，跑个 7B 模型手机就烫得能煎蛋。但 E2B 这个规格，让我重新想了一下。

至少对于程序员来说，本地调试、私有代码处理、离线写东西——现在有正经可用的方案了。

之前业界有个默认的"常识"：Scaling Law 无敌，参数越大越强，没有捷径。

Gemma 4 31B 把这个常识打碎了。

它不是靠堆参数，是靠训练质量和架构优化。对开发者的实际意义：以后选模型，参数大小不是唯一标准了。小而精的模型，在很多场景下比大而慢的更值得用。

在意本地部署、端侧运行 → Gemma 4 E 系列碾压，Llama 4 最低规格也还是要专业设备。

追求最强开源性能 → Gemma 4 31B 是首选，Arena 全球第三不是白给的。

中文生态 → Llama 4 仍有优势，工具链和社区积累短期不会消失。

最快：Google AI Studio — 去 ai.google.dev/playground 直接体验 31B 版本，不用下载。

本地跑：Ollama

ollama pull gemma:2b
ollama run gemma:2b

Hugging Face — 去 huggingface.co/google/gemma-4 下载权重，transformers 加载。

安卓手机 — Google AI Edge Gallery 可直接体验 E2B，纯离线。

Gemma 4 这次让我真正在意的，不是它打赢了对谁。而是它让我看到一件事：AI 的能力，在慢慢从大公司手里流出来。

当 20 亿参数能装进口袋，当 310 亿参数打赢 600 亿的庞然大物——开源这条路的意义，才真正开始显现。

首发于公众号 赛博山海经，每周实测 AI 工具，不玩虚的。

如果觉得有用，点个赞，或者在评论区聊聊你的端侧 AI 使用感受。

#AI工具 #Gemma4 #Google #开源模型 #端侧AI #程序员 #AI模型 #本地部署