别再让AI烧Token了:CLI+Skill才是浏览器自动化的正确打开方式

4 阅读8分钟

试想这么一个案例:我想用 AI 帮我抓一个考题网站的真题。 Token 哗哗地烧。页面上几十个分页来回翻了,上下文窗口直接干到 60%。肉疼。

就为了抓题,费了老半天劲不说,关键是Token都没了。

这事儿其实挺荒谬的。 AI 够聪明了,但搭个浏览器让它干活, Token 消耗像个漏水的水龙头。我后来算了一下,简单页面一天能跑掉十几万 Token ,复杂点的前端框架——比如小红书创作者中心那种——嵌套好几层的 SPA , Token 直接翻倍。钱包在滴血。

MCP 方案的问题:把整个网页塞进 AI 嘴里

说白了,现在主流的浏览器自动化方案(比如 Playwright MCP )就是一招鲜:把网页的 DOM 结构整个打包塞进 AI 的上下文窗口。

你想让 AI 看看页面上有啥?行,整个 DOM 树发过来。想截图?好,一张 PNG 直接灌进上下文。

页面越复杂, Token 吃越多。一个中等复杂度的页面, DOM 几千个节点, Token 消耗轻松破万。说实话看着那个数字往上蹦,心态有点崩。

说实话,这跟让一个人把整本书背下来才能回答"第三段第三行写了啥"有什么区别?荒唐。但很长时间以来大家都这么干,因为没有更好的选择。烦不烦?

2026 年初,微软开源了一个新工具,叫 Playwright CLI 。这个东西一出来,整个局面就不一样了。

Playwright CLI :按需加载,不要全量推送

核心思路就一句话:按需加载,而不是全量推送

传统 MCP 方案, AI 说"帮我看看页面上有啥", MCP 把整个 DOM 几千行全扔过来。 Playwright CLI 的做法不同——它只返回一段简洁的网页摘要,附带一个快照文件的本地路径。 AI 觉得需要细节了,再去读那个文件。截图也是,存到本地磁盘, AI 按需读取,而不是直接塞进上下文。

这个差别有多大?微软官方的基准测试数据:CLI 比 MCP 节省约 4 倍 Token

4 倍。不是 10%,不是 20%,是 4 倍。这个差距说实话有点吓人。

我一开始看到这个数字,觉得是不是有点夸张。后来自己试了几天,信了。尤其是复杂页面,差距非常大——MCP 方案下一个小红书创作者中心的页面能吃掉几万 Token , CLI 方案几千就搞定了。

GitHub 仓库: github.com/microsoft/p…

安装也简单,前提是装了 Node.js :

npm install -g @playwright/mcp@latest 

Chrome 浏览器也得有。装好以后,一条命令就能用:

playwright-cli open google.com --headed 
--persistent

--headed 这个参数是用有头浏览器(能看到页面),不加的话默认无头模式在后台跑。调试阶段建议加上。

一个很关键的参数是--persistent ,它把 cookie 和登录状态写到磁盘里,下次执行直接用,不用重新登录。这个对自动化任务来说太重要了——你总不能每次都手动扫码登录吧。

Skill 的角色:教 AI 用一个它不认识的新工具

Playwright CLI 是 2026 年初才开源的。 AI 的训练数据里没有它的用法。你直接扔给 Claude 说"用 Playwright CLI 帮我抓评论",它会一脸懵。

所以需要搭配 Skill 。

Skill 说白了就是一个 Markdown 说明文档,放在.claude/skills/或者.codex/skills/目录下。告诉 AI 这个工具怎么装、有哪些命令、参数怎么用、常见坑有哪些。

它不参与运行。不是代码,是知识文档。

这个定位很重要。 Skill 的本质是降低 AI 的试错成本——把别人踩过的坑写下来,让 AI 别再踩一遍。

某博主做了一个对比实验,数字特别说明问题:

第一次,让 AI 从零摸索怎么用 Playwright CLI 抓电商评论。磕磕绊绊,试错,报错,重试。上下文窗口消耗 41%。一次任务就用掉将近一半的上下文。离谱。

第二次,把第一次的执行经验沉淀成 Skill 。 AI 照着 Skill 做,同样的任务,上下文只消耗了 5%。

从 41%到 5%,将近 10 倍的效率提升

三级效率阶梯:从烧 Token 到零成本

这个模型特别值得记住,实践一圈下来总结起来就是:

第一级: AI 自由探索。给 AI 一个复杂任务,让它自己摸索。它会试各种方案,踩各种坑, Token 消耗巨大。适合第一次做某个任务,没有先例可以参考。但这一步的体验真的很痛苦。

第二级: Skill 指导。把探索阶段的经验写成 Skill 。 AI 照着 Skill 的指引操作,不再重复踩坑。 Token 消耗降低 10 倍左右。

第三级:纯脚本。如果一个流程完全固定了——比如每次都是"打开商品页→翻评论→保存 CSV"——那就让 AI 把整个过程写成一个脚本。脚本运行时完全不需要 AI 参与, Token 消耗直接归零。

我之前做自媒体文章的自动发布时,走的就是这条路。先让 Claude 操作浏览器一步步验证每个平台的编辑器结构,截图验证,来回调试。 Token 消耗很高,过程也很折磨人。验证通过后,写成脚本,之后一行命令搞定,零 Token 。

扯远了,说回来。

这三个级别不是非此即彼的关系。实际操作中,大部分工作流处于第一级和第二级之间——有些步骤固定了可以写脚本,有些还需要 AI 的判断力。

几个实际踩坑

说点随便想到的。

每个网站的坑不一样。每个平台都是独立的深渊。

小红书的 HTTPS 页面拒绝从 HTTP localhost 加载图片,得自己写一个带 CORS 头的静态服务器绕过去。坑爹不?掘金用的 CodeMirror 编辑器异步加载,简单的 sleep(2000)根本不可靠,得轮询等 DOM 元素出现。烦死了。微信公众号最难——UEditor 套 iframe , URL 带动态 token ,搞了半天靠浏览器原生复制粘贴比 JS 注入靠谱得多。

这说明一个问题:Skill 不能做成通用模板。每个目标页面都需要一份独立的适配,针对它的 DOM 结构和交互怪癖单独处理。

但好消息是,一旦适配完成,沉淀下来的 Skill 可以反复使用。第一次花两小时搞定,之后每次执行就是几十秒的事。

我不确定这算不算"一劳永逸"。也许"一劳"太绝对了,页面改版了 Skill 可能得跟着改。但比起每次手动操作,效率差距是量级的。差距大到你不想再回去了。

这套方案能干嘛

聊几个实际场景。

数据采集。电商评论、竞品价格、行业报告。以前手动复制粘贴一下午的数据, AI 几分钟搞定。但前提是你别踩坑——踩了坑一下午都搞不定。尤其是那种需要翻页、需要筛选条件的场景,手动操作烦得要死。

内容发布。像我之前做的,把 Markdown 文章自动发布到掘金、知乎、微信公众号。每个平台的编辑器都是独立的坑,但坑填完以后,以后就是一键操作。

自动化测试。自己写了个 Web App ,想测一测注册流程有没有 bug ?以前得手动点一遍,现在让 AI 用 Playwright CLI 自动跑测试用例。它自己打开浏览器,自己点注册按钮,自己填表单,自己判断结果对不对。

重复操作。填表、导出、数据录入。这些完全不需要 AI 的"智能",写成脚本零 Token 就跑完了。纯纯的浪费人力去干的事。

说白了,浏览器能做的事,这套方案都能自动化。区别只在于第一步要花多少 Token 让 AI 学会怎么干。有时候那第一步真的贵得离谱。

一个趋势判断

CLI + Skill 正在替代 MCP ,成为 AI Agent 浏览器自动化的主流方案。这不是我一个人的感受——2026 年 Agent 社区里这个讨论越来越热。

核心逻辑很简单: MCP 把工具能力暴露给 AI ,但 Token 开销太大了。大到什么程度?复杂页面一天烧掉几十万 Token ,跟打水漂差不多。 CLI 把执行层面和 AI 推理层面解耦,按需加载, Token 效率高一个数量级。 Skill 负责教 AI 怎么用 CLI ,降低试错成本。

三者组合起来,就是现在能看到的最优解。

当然了,也许半年后又出个新东西把这套方案也干掉。技术迭代嘛,就是这么快。卷不动。但至少现在,如果你想让 AI 帮你操作浏览器干点正经事, Playwright CLI + Skill 是最务实的选择。

具体会怎样,我也说不准。但方向是对的——把 Token 花在"思考"上,而不是花在"搬运数据"上。

你觉得呢?