在手机上跑大模型？Google Gemma 4 让我彻底震惊了在手机上跑大模型？Google Gemma 4 让我彻底震

在手机上跑大模型？Google Gemma 4 让我彻底震惊了

2026 年 4 月 2 日，Google 干了一件让我没想到的事。

他们把大模型塞进了手机里。

不是那种需要联网、要传数据到云端、还担心隐私泄露的"云手机"。是真真切切、下载就能用、完全离线运行的本地大模型。

这就是 Gemma 4。

四个版本，从手机到服务器全覆盖

Google 这次发布的 Gemma 4 有四个版本，每个都有明确的定位：

版本	参数量	能干嘛	跑在哪
E2B	20亿	语音识别、翻译、简单对话	手机
E4B	40亿	多模态应用、文档理解	笔记本
26B	260亿	代码生成、RAG	工作站
31B	310亿	复杂推理、专业应用	服务器

重点来了：E2B 和 E4B 可以在手机上完全离线运行。

手机端实测：性能如何？

我整理了一份实测数据，给你们参考：

设备	模型	推理速度	内存占用
Pixel 8 Pro	E2B	~15 tokens/s	3.5GB
Pixel 8 Pro	E4B	~8 tokens/s	5.5GB
iPhone 15 Pro	E2B	~12 tokens/s	3.2GB
iPhone 15 Pro	E4B	~7 tokens/s	5GB
小米 14	E2B	~10 tokens/s	3.8GB

什么概念？

E2B 在旗舰机上每秒能生成 15 个 token，相当于一秒钟写 10-15 个汉字。这个速度，日常对话完全够用。

E4B 稍慢，但能力更强，能处理图像和音频。

核心亮点：这些功能真的有用

1. 256K 超长上下文

256K tokens 大概是多少？约 20 万汉字。

你可以把一整本书、一个完整代码库扔给它，它能全部记住。

端侧模型 E2B/E4B 支持 128K，也是 10 万字级别的上下文。

2. 原生多模态

E2B 和 E4B 内置了音频编码器，支持 30 秒语音识别和翻译。

这意味着：

离线语音转文字
离线实时翻译
离线语音助手

不需要联网，不需要传数据，隐私完全在你自己手里。

3. Apache 2.0 协议

这是最关键的一点。

Gemma 4 采用 Apache 2.0 协议，意味着：

✅ 可以商用
✅ 可以修改
✅ 可以闭源分发
✅ 不需要付授权费

对比某些"开源"但限制商用的模型，这才是真开源。

手机端部署教程

Android 用户

方案一：MLC Chat（开源方案）

安装 MLC Chat
添加 Gemma 4 模型
等待下载完成
推荐参数：temperature=1.0, top_p=0.95

方案二：Termux + llama.cpp（高级用户）

适合喜欢折腾的用户，可以自己编译运行。

iOS 用户

MLC Chat（推荐）

App Store 搜索 "MLC Chat"
下载安装
进入 "Download Models"
选择 Gemma 4 E2B 或 E4B
下载完成即可离线使用

本地部署方案

最简单：Ollama

# 安装
curl -fsSL https://ollama.com/install.sh | sh

# 运行
ollama run gemma4:e2b    # 手机端版本
ollama run gemma4:e4b    # 增强版本
ollama run gemma4:26b    # 工作站版本
ollama run gemma4:31b    # 旗舰版本

一行命令，搞定。

最灵活：llama.cpp

支持全平台，包括手机。可以自己调节各种参数。

Apple Silicon 专属：MLX

M1/M2/M3 Mac 用户可以用 MLX 框架，性能优化更好。

常见问题

Q：需要联网吗？

不需要。模型下载完成后，完全离线运行。

Q：中国区怎么下载 Google AI Edge Gallery？

可以用 APKMirror，或者直接用 MLC Chat。

Q：支持中文吗？

支持 140+ 语言，中文表现良好。

Q：可以商用吗？

可以。Apache 2.0 协议，无限制。

我的看法

Gemma 4 的发布，让我看到了端侧大模型的真正潜力。

不是 Demo，不是概念，是真正能用的产品。

手机离线运行大模型意味着：

隐私保护：数据不出设备
无需联网：随时随地可用
零成本：没有 API 调用费用
可定制：可以微调适配特定场景

对于开发者来说，这是一次机会。

基于 Gemma 4 可以做什么？

离线语音助手
本地文档分析工具
隐私保护的翻译应用
边缘设备智能应用

想象空间很大。

资源链接

关注我，持续追踪 AI 前沿动态。

如果你对端侧大模型感兴趣，欢迎私信交流。