看完热榜第1"浏览器跑大模型省5万",我实测了一下,踩了3个大坑

22 阅读4分钟

今天刷掘金,热榜第一是一篇「在浏览器里跑 Qwen2.5,省了5万API费」。

说实话,标题一看就很心动 🤩 谁不想省钱呢?

作为一个天天跟各种大模型 API 打交道的人,我当场就动手实测了。

结果嘛……确实跑起来了,但也确实踩了3个大坑,差点把我的 M2 MacBook 烤熟。

坑1:首次加载,我等了2分钟

按照文章的思路,我装了 @mlc-ai/web-llm,选了 Qwen2.5-1.5B 的量化版本。

import { CreateMLCEngine } from "@mlc-ai/web-llm";

const engine = await CreateMLCEngine("Qwen2.5-1.5B-Instruct-q4f32_1-MLC", {
  initProgressCallback: (p) => {
    console.log(`下载进度: ${(p.progress * 100).toFixed(1)}%`);
  },
});

模型文件大概 1.1GB。我公司的网还行,50Mbps 下行,下了差不多 2 分钟。

但是我想了一下,如果是用户在自己家里的网络?或者手机 4G?

这个首屏体验,产品经理看到会打人的。 😅

当然,下载一次之后会缓存在 Cache Storage 里,后面打开就很快了。但第一次的体验确实劝退。

坑2:复杂任务直接拉胯

跑起来之后我测了几个场景:

任务浏览器端 Qwen2.5-1.5B云端 Claude Sonnet
写个 React Button✅ 能用✅ 完美
解释一段 500 行的代码❌ 胡说八道✅ 逻辑清晰
生成完整的 REST API❌ 缺胳膊少腿✅ 可直接运行
多轮对话调试 Bug❌ 第3轮就忘了前面说啥✅ 全程在线

1.5B 参数的小模型,做简单的文本生成、格式转换这种"模式匹配"任务还行。

但凡涉及到复杂推理、长上下文理解、代码生成——对不起,还是得靠云端大模型。

这不是 WebGPU 的锅,是模型能力的天花板。

坑3:我的风扇疯了

跑 Qwen2.5-1.5B 推理的时候,Chrome 吃了 4GB 内存,GPU 直接拉满。

风扇狂转,手腕放在键盘上能感受到明显的热量。

如果是公司内部工具还好,反正是员工自己的电脑。

但如果是 ToC 产品……你跟用户说"我们的 AI 功能需要你的 GPU 全力运转",用户大概会觉得你在挖矿 🙃

所以,省 API 费的正确姿势到底是什么?

热榜那篇文章的方向没有错——能在端侧跑的任务,确实没必要调 API。

但实际项目里,大部分有价值的 AI 功能(代码生成、文档问答、数据分析)都需要大模型。

我自己摸索下来,真正能省钱的路子有三条:

1. 分层调用,别什么都用最贵的

简单任务用小模型(Haiku、GPT-4o-mini),复杂任务才上大模型(Opus、Sonnet)。

实测一个 Vibe Coding 项目,把"代码补全"和"代码生成"拆成两个模型处理,成本直接降了 60%。

2. 利用 Prompt Cache,同一个会话别换模型

很多人不知道,现在主流模型都支持 Prompt Cache——如果你的上下文没变,重复的 prompt 部分只收 1/10 的价格。

但有个前提:同一个会话要锁定在同一个模型供应商的系列里

比如你用 Claude Sonnet 聊了 10 轮,中间想切到 Opus 处理一个难题,Prompt Cache 还在。但如果你跨供应商切到 GPT,100K 的上下文就要全价重新算。

这也是为什么我觉得用模型聚合平台比直接接各家 API 方便——像 ofox.ai 这种,一个 API 端点就能切不同模型,缓存策略还能跨模型生效(前提是同系列),省了自己维护多套 SDK 的麻烦。

3. 端云混合才是终局

我自己项目里的做法:

用户输入 → 端侧小模型判断意图/难度
         ├── 简单任务 → 端侧直接处理(零API成本)
         └── 复杂任务 → 调云端API(按需选模型)

简单的 FAQ 回答、格式转换,Qwen2.5-1.5B 在浏览器端就够了。

需要写代码、分析文档?那还是乖乖调 API,选个性价比高的模型。

这种"端云混合"架构,比纯端侧或纯云端都省钱,而且用户体验也更好——简单问题秒回,复杂问题走 API 也就1-2秒。

最后说两句

那篇热榜文章让我学到了 WebGPU + WebLLM 的玩法,这个方向确实有意义。

但我觉得大家不要走极端——要么全端侧要么全云端。

2026 年了,AI 应用的成本优化不是选边站,是组合拳。

端侧小模型负责低价值高频次的任务,云端大模型负责高价值低频次的任务。中间用一个聚合层做路由。

这才是真正的"降本增效",而不是把用户的电脑变成暖手宝 😂


你们项目里是怎么控制 AI API 成本的?评论区聊聊 👇