在 Android 手机上跑本地 LLM:我花了三天实测,这些坑你一定要知道

27 阅读6分钟

最近科技圈有个特别有意思的新闻不知道你们注意到了没:Google Chrome 悄悄在用户电脑上安装了约 4GB 的 Nano AI 模型。这事儿在 Hacker News 上直接炸出了 1700+ 的热度讨论。

但我今天想聊的不是 Chrome,而是在手机端——在你的 Android 手机上跑本地 LLM 到底是种什么体验

事情是这样的,前几天我刷 Reddit 的时候看到一个帖子,一个老哥用他那个 Dimensity 9300+ 的中端手机(12GB 内存,非旗舰)跑Llama 3.2 3B,速度居然能达到 29 tokens/s。这把我惊到了,因为我记忆中手机跑本地 AI 应该是那种"等半天憋出一个字"的体验。

作为一个用了好多年 Android、写过不少 Kotlin 代码的开发者,我决定自己实测一把,看看 2026 年的今天,在手机上跑本地 LLM 到底行不行。

我的实测环境

先说下我的设备:一加 12,骁龙 8 Gen 3,16GB + 512GB 的配置。这个配置在 2026 年已经不算特别旗舰了,但也算是主流高端机的水平。

我用的是三个主流方案:

  1. MLC Chat — 这个是目前最成熟的手机端 LLM 部署工具
  2. Llama.cpp 的 Android 端口
  3. GGUF 量化模型 — 专门为本地运行优化的模型格式

模型我选了几个不同大小的:

  • Gemma 2B — Google 开源的轻量模型
  • Llama 3.2 3B — Meta 的最新轻量版
  • Qwen2.5 3B — 阿里开源的中文模型

实际体验:没有想象中那么美好

好了,直接说结论:能跑,但体验嘛...见仁见智

启动速度:确实比以前快多了

让我比较意外的是,现在手机端 LLM 的启动速度比我想象中快很多。Gemma 2B 这种小模型,基本 5-10 秒就能加载完成,开始生成内容。3B 的模型大约需要 15-20 秒。这比 2024 年那会儿确实快了不少。

但这里有个坑:每次重新打开应用都要重新加载模型,如果你只是偶尔用一下,这个等待时间还是挺烦人的。

生成速度:29 tokens/s 确实能达到

那位 Reddit 老哥说的 29 tokens/s 我验证了一下,基本属实。但这个数字取决于几个因素:

  • 模型大小:2B 模型能跑到 25-35 tokens/s,3B 模型大概 15-25 tokens/s
  • 量化等级:用 Q4_K_M 量化能快很多,但质量会下降
  • 手机温度:跑久了会发热降频,速度立刻掉到 10 tokens/s 以下

实际应用场景:真的很有限

说了这么多,大家最关心的可能是:这玩意儿到底能干啥?

我的使用场景:

  1. 写代码辅助 — 嗯,这个有点鸡肋。手机屏幕太小,写代码本身就不方便,而且手机跑出来的代码质量...你们懂的
  2. 翻译/摘要 — 这个还挺实用的,特别是离线的时候
  3. 聊天机器人 — 纯聊天的话,3B 模型的表现也就比 Siri 强点有限
  4. 本地隐私场景 — 比如一些不想上传云端的私人对话,这个是最大的价值点

最大的问题:发热和续航

这个必须重点强调:手机跑 LLM 真是太烫了!

我实测跑了 15 分钟后,手机背面温度直接飙到 45 度以上,摄像头区域更是烫手。这时候速度会明显下降,而且掉电速度惊人——15 分钟掉了大约 15% 的电量。

如果你想长时间使用,要么准备散热背夹,要么就接受这个续航尿崩的事实。

为什么我还是要说这是个值得关注的方向?

虽然现在体验还不完美,但我为什么还是要聊这个话题?

因为端侧 AI 是大势所趋

你们注意到了吗?苹果最近宣布在 iOS 27 中要开放第三方 AI 模型选择了。这意味着什么?意味着手机厂商们已经意识到,AI 能力将成为核心竞争力,而不仅仅是"内置一个 Siri"那么简单。

而且你们发现没,Chrome 悄咪咪装 4GB AI 模型这事儿,虽然被用户骂翻了,但从技术角度来说,这代表本地 AI 运行的门槛正在快速降低。4GB 都能装,以后 8GB、16GB 的模型在手机上限运行也不是不可能。

再加上现在芯片厂商也在发力,高通、联发科的最新旗舰芯片都专门针对 AI 推理做了优化。未来一到两年,手机端运行 7B、8B 的模型应该会成为常态。

我的建议:普通人现在要不要尝试?

如果你只是想体验一下:可以试试 MLC Chat + Gemma 2B,花 10 分钟安装好,玩一玩没问题,别抱太大期望就行。

如果你想当成生产力工具:还是算了吧。现在的手机端 LLM 最多也就是个玩具级别,离真正能帮你写代码、办公还有很大距离。

但如果你关心 AI 的未来:一定要关注这个领域。端侧 AI 的发展速度可能比你们想象的快得多。就像 2022 年我们觉得手机跑 Stable Diffusion 是天方夜谭,现在不也实现了吗?

写在最后

实测完了之后,我最大的感受是:技术进步真的很快,但媒体宣传总是比实际发展快半拍

之前铺天盖地的"手机 AI"宣传,听起来好像我们随时随地都能用上 ChatGPT 级别的体验。实际上呢?你需要手动安装、下载模型、忍受发热和续航崩盘,最后得到一个比云端弱得多的版本。

但话又说回来,这不正是技术的魅力吗?从不能用到能用,从能用再到好用,每一个阶段都有人在推动边界外延。

至于 Chrome 悄悄装 4GB 模型那事儿,我的态度是:技术归技术,隐私归隐私。你可以用 AI 功能,但能不能先问用户一声?这种"先斩后奏"的玩法,真的不太厚道。

好了,这就是我的三天实测心得。如果你们也在手机上跑过本地 LLM,欢迎评论区聊聊你的体验。对了,你们觉得手机端 AI 什么时候才能真正"能用"?我盲猜一个:2027 年。