AI圈在2026年最大的新闻就是OpenClaw的发布,给了很多人非常大的惊喜,狂欢过后的满地鸡毛也随之而来,我在某书冲浪看到个很有趣的评论
“我用 OpenClaw帮我值机,结果花掉的 token 费,比机票还贵。”
这句看似灰色幽默的笑话,但也确实暴露了龙虾对于商业化推广存在的问题
如果 AI 真的开始替我们做一些低频场景,比较简单的事,那它的成本能做到合理范围吗?
这并不是在嘲讽 OpenClaw,而是一个非常典型、非常真实的 AI 落地缩影,token成本的问题是避不开的。
OpenClaw 为什么能火?
OpenClaw的爆火是必然的,因为从2022年年底的AI爆火至今,大家都在等待一个真正能自行完成需求的人工智能:
- 我们并不缺模型
- 我们缺的是 能“自己动手”的 AI
相比只会在对话框里一问一答,包括后面的文生图,文生视频,离真正普惠大众的生产力工具都还差点意思。
OpenClaw 的核心吸引力在于:
- 它可以 理解目标(比如:完成一次值机)
- 它可以 拆解步骤(查航班 → 登录 → 填信息 → 提交)
- 它可以 调用工具、反复尝试、纠错,最终完成你的需求
这已经非常接近普通用户心中“AI助理”的理想形态。
OpenClaw的出现解决了能力问题,但token成本问题也暴露出来了。
为什么看似简单的操作,token 会贵到离谱?
我们把“值机”这件事拆开来看,其实会发现一个很反直觉的事实:
这不是一个“轻任务”,而是一个 token 黑洞。
1️⃣ 它是一个“长链路任务”
一次值机,背后可能包含:
- 多轮页面理解(HTML / DOM / 文本 / 截图)
- 多次决策与校验
- 多轮失败重试
- 状态持续记忆
这意味着:
模型并不仅仅是单一的输出内容的token,操作内容的token,验证内容的token,在持续的“思考 + 观察 + 决策”。
上述的每一步,AI进行操作都是繁复的过程,每一步的 token 都在燃烧。
2️⃣ AI 正在为“低价值动作”使用“高价值算力”
从用户视角看:
- 值机是一件低频、低价值、但很麻烦的小事
从模型视角看:
- 它在做网页理解、流程规划、异常处理
- 本质是一个 复杂通用推理问题
于是就出现了一个错位:
用接近“科研级推理成本”,去解决一个“生活琐事”。
这在技术上是可行的,但在日常生活领域并不“划算”。
3️⃣ 用户并不关心“你推理了多久”
这是最残酷的一点。
用户真正关心的是:
- 我是不是用一句话把事情办了
- 我是不是少折腾了几分钟
- 我付的钱值不值得花在这件事上
当 token 成本被显性化之后,用户会发现AI在做很多没必要的验证,即使你已经把该准备的内容都准备好了,这就跟你看病一样,花了大价钱没检查出问题,你会思考:
花了那么多钱没检查出问题,这“医院坑钱的吧”
回到AI就是为什么要为AI的多余思考买单?
OpenClaw 真正难商业化落地的痛点在哪?
OpenClaw难以进入普罗大众生活不是模型和能力问题,而是 三重结构性矛盾。
⚠️ 矛盾一:通用 Agent vs 高频场景
通用 Agent 的成本结构,决定了它更适合:
- 高频
- 高价值
- 强确定性
而一些生活场景或者是工作场景可能是:
- 低频
- 单次价值低
- 环境高度不稳定
值机,只是一个最容易被感知的例子。
⚠️ 矛盾二:算力成本 vs 用户心理定价
用户对于任务难度的评估是没有概念的,不能精确评估每个任务的价格,这会导致钱花的多了以后,就会觉得:
这么简单的任务收我这么多钱,我还不如自己来呢
⚠️ 矛盾三:可控性与失败成本
一旦 AI 在“真实世界操作”中出错:
- 订错航班
- 填错证件
- 错过时间窗口
失败成本,往往远高于节省的那点时间。
这也会反过来推高:
- 校验逻辑
- 保险机制
- 人工兜底
进一步抬高整体成本。
那有没有更好的解法?
如果直接让大模型“全权执行”不现实,那答案可能并不是 更大的模型,而是 更聪明的分工。
✅ 解法一:skill + 垂直系统深度绑定
真正有机会落地的 Agent,往往具备这些特征:
- 场景高度垂直
- 流程高度结构化
- 接口稳定、可控
例如:
- 企业内部系统
- 运维、工单、报表
- 固定规则的业务流
在这些场景里:
AI 不需要反复“理解世界”,因为它做的事是重复的,只需要理解规则。
✅ 解法二:本地化 + 低成本推理
还有一条正在被验证的路线:
- 将一部分 skill 下沉到本地
- 使用小模型 / 专用模型完成感知与执行
- 仅在重大任务时调用云端大模型进行操作
这本质上是:
用系统工程,而不是纯模型能力,去压低 token 成本。
其他解法大家可以在评论区发挥一下头脑风暴