看完热榜第1"浏览器跑大模型省5万"，我实测了一下，踩了3个大坑看完热榜"浏览器跑Qwen2.5省5万API费"，实测踩

今天刷掘金，热榜第一是一篇「在浏览器里跑 Qwen2.5，省了5万API费」。

说实话，标题一看就很心动 🤩 谁不想省钱呢？

作为一个天天跟各种大模型 API 打交道的人，我当场就动手实测了。

结果嘛……确实跑起来了，但也确实踩了3个大坑，差点把我的 M2 MacBook 烤熟。

坑1：首次加载，我等了2分钟

按照文章的思路，我装了 @mlc-ai/web-llm，选了 Qwen2.5-1.5B 的量化版本。

import { CreateMLCEngine } from "@mlc-ai/web-llm";

const engine = await CreateMLCEngine("Qwen2.5-1.5B-Instruct-q4f32_1-MLC", {
  initProgressCallback: (p) => {
    console.log(`下载进度: ${(p.progress * 100).toFixed(1)}%`);
  },
});

模型文件大概 1.1GB。我公司的网还行，50Mbps 下行，下了差不多 2 分钟。

但是我想了一下，如果是用户在自己家里的网络？或者手机 4G？

这个首屏体验，产品经理看到会打人的。 😅

当然，下载一次之后会缓存在 Cache Storage 里，后面打开就很快了。但第一次的体验确实劝退。

坑2：复杂任务直接拉胯

跑起来之后我测了几个场景：

任务	浏览器端 Qwen2.5-1.5B	云端 Claude Sonnet
写个 React Button	✅ 能用	✅ 完美
解释一段 500 行的代码	❌ 胡说八道	✅ 逻辑清晰
生成完整的 REST API	❌ 缺胳膊少腿	✅ 可直接运行
多轮对话调试 Bug	❌ 第3轮就忘了前面说啥	✅ 全程在线

1.5B 参数的小模型，做简单的文本生成、格式转换这种"模式匹配"任务还行。

但凡涉及到复杂推理、长上下文理解、代码生成——对不起，还是得靠云端大模型。

这不是 WebGPU 的锅，是模型能力的天花板。

坑3：我的风扇疯了

跑 Qwen2.5-1.5B 推理的时候，Chrome 吃了 4GB 内存，GPU 直接拉满。

风扇狂转，手腕放在键盘上能感受到明显的热量。

如果是公司内部工具还好，反正是员工自己的电脑。

但如果是 ToC 产品……你跟用户说"我们的 AI 功能需要你的 GPU 全力运转"，用户大概会觉得你在挖矿 🙃

所以，省 API 费的正确姿势到底是什么？

热榜那篇文章的方向没有错——能在端侧跑的任务，确实没必要调 API。

但实际项目里，大部分有价值的 AI 功能（代码生成、文档问答、数据分析）都需要大模型。

我自己摸索下来，真正能省钱的路子有三条：

1. 分层调用，别什么都用最贵的

简单任务用小模型（Haiku、GPT-4o-mini），复杂任务才上大模型（Opus、Sonnet）。

实测一个 Vibe Coding 项目，把"代码补全"和"代码生成"拆成两个模型处理，成本直接降了 60%。

2. 利用 Prompt Cache，同一个会话别换模型

很多人不知道，现在主流模型都支持 Prompt Cache——如果你的上下文没变，重复的 prompt 部分只收 1/10 的价格。

但有个前提：同一个会话要锁定在同一个模型供应商的系列里。

比如你用 Claude Sonnet 聊了 10 轮，中间想切到 Opus 处理一个难题，Prompt Cache 还在。但如果你跨供应商切到 GPT，100K 的上下文就要全价重新算。

这也是为什么我觉得用模型聚合平台比直接接各家 API 方便——像 ofox.ai 这种，一个 API 端点就能切不同模型，缓存策略还能跨模型生效（前提是同系列），省了自己维护多套 SDK 的麻烦。

3. 端云混合才是终局

我自己项目里的做法：

用户输入 → 端侧小模型判断意图/难度
         ├── 简单任务 → 端侧直接处理（零API成本）
         └── 复杂任务 → 调云端API（按需选模型）

简单的 FAQ 回答、格式转换，Qwen2.5-1.5B 在浏览器端就够了。

需要写代码、分析文档？那还是乖乖调 API，选个性价比高的模型。

这种"端云混合"架构，比纯端侧或纯云端都省钱，而且用户体验也更好——简单问题秒回，复杂问题走 API 也就1-2秒。

最后说两句

那篇热榜文章让我学到了 WebGPU + WebLLM 的玩法，这个方向确实有意义。

但我觉得大家不要走极端——要么全端侧要么全云端。

2026 年了，AI 应用的成本优化不是选边站，是组合拳。

端侧小模型负责低价值高频次的任务，云端大模型负责高价值低频次的任务。中间用一个聚合层做路由。

这才是真正的"降本增效"，而不是把用户的电脑变成暖手宝 😂

你们项目里是怎么控制 AI API 成本的？评论区聊聊 👇