在 Android 手机上跑本地 LLM：我花了三天实测，这些坑你一定要知道事情是这样的，前几天我刷 Reddit 的时

最近科技圈有个特别有意思的新闻不知道你们注意到了没：Google Chrome 悄悄在用户电脑上安装了约 4GB 的 Nano AI 模型。这事儿在 Hacker News 上直接炸出了 1700+ 的热度讨论。

但我今天想聊的不是 Chrome，而是在手机端——在你的 Android 手机上跑本地 LLM 到底是种什么体验。

事情是这样的，前几天我刷 Reddit 的时候看到一个帖子，一个老哥用他那个 Dimensity 9300+ 的中端手机（12GB 内存，非旗舰）跑Llama 3.2 3B，速度居然能达到 29 tokens/s。这把我惊到了，因为我记忆中手机跑本地 AI 应该是那种"等半天憋出一个字"的体验。

作为一个用了好多年 Android、写过不少 Kotlin 代码的开发者，我决定自己实测一把，看看 2026 年的今天，在手机上跑本地 LLM 到底行不行。

我的实测环境

先说下我的设备：一加 12，骁龙 8 Gen 3，16GB + 512GB 的配置。这个配置在 2026 年已经不算特别旗舰了，但也算是主流高端机的水平。

我用的是三个主流方案：

模型我选了几个不同大小的：

好了，直接说结论：能跑，但体验嘛...见仁见智。

让我比较意外的是，现在手机端 LLM 的启动速度比我想象中快很多。Gemma 2B 这种小模型，基本 5-10 秒就能加载完成，开始生成内容。3B 的模型大约需要 15-20 秒。这比 2024 年那会儿确实快了不少。

但这里有个坑：每次重新打开应用都要重新加载模型，如果你只是偶尔用一下，这个等待时间还是挺烦人的。

那位 Reddit 老哥说的 29 tokens/s 我验证了一下，基本属实。但这个数字取决于几个因素：

说了这么多，大家最关心的可能是：这玩意儿到底能干啥？

我的使用场景：

这个必须重点强调：手机跑 LLM 真是太烫了！

我实测跑了 15 分钟后，手机背面温度直接飙到 45 度以上，摄像头区域更是烫手。这时候速度会明显下降，而且掉电速度惊人——15 分钟掉了大约 15% 的电量。

如果你想长时间使用，要么准备散热背夹，要么就接受这个续航尿崩的事实。

虽然现在体验还不完美，但我为什么还是要聊这个话题？

因为端侧 AI 是大势所趋。

你们注意到了吗？苹果最近宣布在 iOS 27 中要开放第三方 AI 模型选择了。这意味着什么？意味着手机厂商们已经意识到，AI 能力将成为核心竞争力，而不仅仅是"内置一个 Siri"那么简单。

而且你们发现没，Chrome 悄咪咪装 4GB AI 模型这事儿，虽然被用户骂翻了，但从技术角度来说，这代表本地 AI 运行的门槛正在快速降低。4GB 都能装，以后 8GB、16GB 的模型在手机上限运行也不是不可能。

再加上现在芯片厂商也在发力，高通、联发科的最新旗舰芯片都专门针对 AI 推理做了优化。未来一到两年，手机端运行 7B、8B 的模型应该会成为常态。

如果你只是想体验一下：可以试试 MLC Chat + Gemma 2B，花 10 分钟安装好，玩一玩没问题，别抱太大期望就行。

如果你想当成生产力工具：还是算了吧。现在的手机端 LLM 最多也就是个玩具级别，离真正能帮你写代码、办公还有很大距离。

但如果你关心 AI 的未来：一定要关注这个领域。端侧 AI 的发展速度可能比你们想象的快得多。就像 2022 年我们觉得手机跑 Stable Diffusion 是天方夜谭，现在不也实现了吗？

实测完了之后，我最大的感受是：技术进步真的很快，但媒体宣传总是比实际发展快半拍。

之前铺天盖地的"手机 AI"宣传，听起来好像我们随时随地都能用上 ChatGPT 级别的体验。实际上呢？你需要手动安装、下载模型、忍受发热和续航崩盘，最后得到一个比云端弱得多的版本。

但话又说回来，这不正是技术的魅力吗？从不能用到能用，从能用再到好用，每一个阶段都有人在推动边界外延。

至于 Chrome 悄悄装 4GB 模型那事儿，我的态度是：技术归技术，隐私归隐私。你可以用 AI 功能，但能不能先问用户一声？这种"先斩后奏"的玩法，真的不太厚道。

好了，这就是我的三天实测心得。如果你们也在手机上跑过本地 LLM，欢迎评论区聊聊你的体验。对了，你们觉得手机端 AI 什么时候才能真正"能用"？我盲猜一个：2027 年。