在手机上跑大模型?Google Gemma 4 让我彻底震惊了

39 阅读4分钟

在手机上跑大模型?Google Gemma 4 让我彻底震惊了

2026 年 4 月 2 日,Google 干了一件让我没想到的事。

他们把大模型塞进了手机里。

不是那种需要联网、要传数据到云端、还担心隐私泄露的"云手机"。是真真切切、下载就能用、完全离线运行的本地大模型。

这就是 Gemma 4。


四个版本,从手机到服务器全覆盖

Google 这次发布的 Gemma 4 有四个版本,每个都有明确的定位:

版本参数量能干嘛跑在哪
E2B20亿语音识别、翻译、简单对话手机
E4B40亿多模态应用、文档理解笔记本
26B260亿代码生成、RAG工作站
31B310亿复杂推理、专业应用服务器

重点来了:E2B 和 E4B 可以在手机上完全离线运行。


手机端实测:性能如何?

我整理了一份实测数据,给你们参考:

设备模型推理速度内存占用
Pixel 8 ProE2B~15 tokens/s3.5GB
Pixel 8 ProE4B~8 tokens/s5.5GB
iPhone 15 ProE2B~12 tokens/s3.2GB
iPhone 15 ProE4B~7 tokens/s5GB
小米 14E2B~10 tokens/s3.8GB

什么概念?

E2B 在旗舰机上每秒能生成 15 个 token,相当于一秒钟写 10-15 个汉字。这个速度,日常对话完全够用。

E4B 稍慢,但能力更强,能处理图像和音频。


核心亮点:这些功能真的有用

1. 256K 超长上下文

256K tokens 大概是多少?约 20 万汉字。

你可以把一整本书、一个完整代码库扔给它,它能全部记住。

端侧模型 E2B/E4B 支持 128K,也是 10 万字级别的上下文。

2. 原生多模态

E2B 和 E4B 内置了音频编码器,支持 30 秒语音识别和翻译。

这意味着:

  • 离线语音转文字
  • 离线实时翻译
  • 离线语音助手

不需要联网,不需要传数据,隐私完全在你自己手里。

3. Apache 2.0 协议

这是最关键的一点。

Gemma 4 采用 Apache 2.0 协议,意味着:

  • ✅ 可以商用
  • ✅ 可以修改
  • ✅ 可以闭源分发
  • ✅ 不需要付授权费

对比某些"开源"但限制商用的模型,这才是真开源。


手机端部署教程

Android 用户

方案一:MLC Chat(开源方案)

  1. 安装 MLC Chat
  2. 添加 Gemma 4 模型
  3. 等待下载完成
  4. 推荐参数:temperature=1.0, top_p=0.95

方案二:Termux + llama.cpp(高级用户)

适合喜欢折腾的用户,可以自己编译运行。

iOS 用户

MLC Chat(推荐)

  1. App Store 搜索 "MLC Chat"
  2. 下载安装
  3. 进入 "Download Models"
  4. 选择 Gemma 4 E2B 或 E4B
  5. 下载完成即可离线使用

本地部署方案

最简单:Ollama

# 安装
curl -fsSL https://ollama.com/install.sh | sh

# 运行
ollama run gemma4:e2b    # 手机端版本
ollama run gemma4:e4b    # 增强版本
ollama run gemma4:26b    # 工作站版本
ollama run gemma4:31b    # 旗舰版本

一行命令,搞定。

最灵活:llama.cpp

支持全平台,包括手机。可以自己调节各种参数。

Apple Silicon 专属:MLX

M1/M2/M3 Mac 用户可以用 MLX 框架,性能优化更好。


常见问题

Q:需要联网吗?

不需要。模型下载完成后,完全离线运行。

Q:中国区怎么下载 Google AI Edge Gallery?

可以用 APKMirror,或者直接用 MLC Chat。

Q:支持中文吗?

支持 140+ 语言,中文表现良好。

Q:可以商用吗?

可以。Apache 2.0 协议,无限制。


我的看法

Gemma 4 的发布,让我看到了端侧大模型的真正潜力。

不是 Demo,不是概念,是真正能用的产品。

手机离线运行大模型意味着:

  • 隐私保护:数据不出设备
  • 无需联网:随时随地可用
  • 零成本:没有 API 调用费用
  • 可定制:可以微调适配特定场景

对于开发者来说,这是一次机会。

基于 Gemma 4 可以做什么?

  • 离线语音助手
  • 本地文档分析工具
  • 隐私保护的翻译应用
  • 边缘设备智能应用

想象空间很大。


资源链接


关注我,持续追踪 AI 前沿动态。

如果你对端侧大模型感兴趣,欢迎私信交流。