在手机上跑大模型?Google Gemma 4 让我彻底震惊了
2026 年 4 月 2 日,Google 干了一件让我没想到的事。
他们把大模型塞进了手机里。
不是那种需要联网、要传数据到云端、还担心隐私泄露的"云手机"。是真真切切、下载就能用、完全离线运行的本地大模型。
这就是 Gemma 4。
四个版本,从手机到服务器全覆盖
Google 这次发布的 Gemma 4 有四个版本,每个都有明确的定位:
| 版本 | 参数量 | 能干嘛 | 跑在哪 |
|---|---|---|---|
| E2B | 20亿 | 语音识别、翻译、简单对话 | 手机 |
| E4B | 40亿 | 多模态应用、文档理解 | 笔记本 |
| 26B | 260亿 | 代码生成、RAG | 工作站 |
| 31B | 310亿 | 复杂推理、专业应用 | 服务器 |
重点来了:E2B 和 E4B 可以在手机上完全离线运行。
手机端实测:性能如何?
我整理了一份实测数据,给你们参考:
| 设备 | 模型 | 推理速度 | 内存占用 |
|---|---|---|---|
| Pixel 8 Pro | E2B | ~15 tokens/s | 3.5GB |
| Pixel 8 Pro | E4B | ~8 tokens/s | 5.5GB |
| iPhone 15 Pro | E2B | ~12 tokens/s | 3.2GB |
| iPhone 15 Pro | E4B | ~7 tokens/s | 5GB |
| 小米 14 | E2B | ~10 tokens/s | 3.8GB |
什么概念?
E2B 在旗舰机上每秒能生成 15 个 token,相当于一秒钟写 10-15 个汉字。这个速度,日常对话完全够用。
E4B 稍慢,但能力更强,能处理图像和音频。
核心亮点:这些功能真的有用
1. 256K 超长上下文
256K tokens 大概是多少?约 20 万汉字。
你可以把一整本书、一个完整代码库扔给它,它能全部记住。
端侧模型 E2B/E4B 支持 128K,也是 10 万字级别的上下文。
2. 原生多模态
E2B 和 E4B 内置了音频编码器,支持 30 秒语音识别和翻译。
这意味着:
- 离线语音转文字
- 离线实时翻译
- 离线语音助手
不需要联网,不需要传数据,隐私完全在你自己手里。
3. Apache 2.0 协议
这是最关键的一点。
Gemma 4 采用 Apache 2.0 协议,意味着:
- ✅ 可以商用
- ✅ 可以修改
- ✅ 可以闭源分发
- ✅ 不需要付授权费
对比某些"开源"但限制商用的模型,这才是真开源。
手机端部署教程
Android 用户
方案一:MLC Chat(开源方案)
- 安装 MLC Chat
- 添加 Gemma 4 模型
- 等待下载完成
- 推荐参数:temperature=1.0, top_p=0.95
方案二:Termux + llama.cpp(高级用户)
适合喜欢折腾的用户,可以自己编译运行。
iOS 用户
MLC Chat(推荐)
- App Store 搜索 "MLC Chat"
- 下载安装
- 进入 "Download Models"
- 选择 Gemma 4 E2B 或 E4B
- 下载完成即可离线使用
本地部署方案
最简单:Ollama
# 安装
curl -fsSL https://ollama.com/install.sh | sh
# 运行
ollama run gemma4:e2b # 手机端版本
ollama run gemma4:e4b # 增强版本
ollama run gemma4:26b # 工作站版本
ollama run gemma4:31b # 旗舰版本
一行命令,搞定。
最灵活:llama.cpp
支持全平台,包括手机。可以自己调节各种参数。
Apple Silicon 专属:MLX
M1/M2/M3 Mac 用户可以用 MLX 框架,性能优化更好。
常见问题
Q:需要联网吗?
不需要。模型下载完成后,完全离线运行。
Q:中国区怎么下载 Google AI Edge Gallery?
可以用 APKMirror,或者直接用 MLC Chat。
Q:支持中文吗?
支持 140+ 语言,中文表现良好。
Q:可以商用吗?
可以。Apache 2.0 协议,无限制。
我的看法
Gemma 4 的发布,让我看到了端侧大模型的真正潜力。
不是 Demo,不是概念,是真正能用的产品。
手机离线运行大模型意味着:
- 隐私保护:数据不出设备
- 无需联网:随时随地可用
- 零成本:没有 API 调用费用
- 可定制:可以微调适配特定场景
对于开发者来说,这是一次机会。
基于 Gemma 4 可以做什么?
- 离线语音助手
- 本地文档分析工具
- 隐私保护的翻译应用
- 边缘设备智能应用
想象空间很大。
资源链接
- 官方文档:ai.google.dev/gemma
- Hugging Face:huggingface.co/google
- GitHub:github.com/google/gemm…
- Ollama:ollama.com/library/gem…
关注我,持续追踪 AI 前沿动态。
如果你对端侧大模型感兴趣,欢迎私信交流。