Kimi WebBridge,AI 操作浏览器更好的一把铲子

0 阅读8分钟

Kimi WebBridge,AI 操作浏览器更好的一把铲子

上期给大家介绍了 Playwright 浏览器自动化实战指南,给 AI 装上了“眼睛和手”。没看过的同学可以先回去翻翻:给 AI 装上"眼睛和手"——Playwright 浏览器自动化实战指南

那篇文章里,我介绍了我对 Playwright 的两种使用方式,各有优劣。

今天我们聊一个"轻装备":Kimi WebBridge。如果你觉得 Playwright 太重、登录态管理太烦、代理配置太绕,那这东西可能就是你要找的。


Playwright 的两个"真疼"

先说痛点,不然你不知道 WebBridge 好在哪。

玩过 Playwright 的同学应该都有体会,最烦的不是写脚本,是两件事:

第一,登录态管理。

Playwright 启动的是一个"干净的"浏览器实例——没有你的 Cookie,没有你的登录态。想让它访问你的 GitHub、知乎、小红书?不好意思,先手动登录一遍,然后 state-save 保存到 auth.json,下次再 state-load 加载回来。登录态过期了?再来一遍。

说白了就是:你明明浏览器里已经登着,Playwright 非要让你再登一次。

第二,环境配置。

Python Playwright 要先 pip install playwright,再 playwright install chromium,下载一个独立的 Chromium 浏览器。如果你的网络需要代理,还得配 HTTPS_PROXY 环境变量。如果你的系统没装 Node.js,Playwright CLI 还用不了。

一句话:为了拿 10KB 的数据,你得先折腾 200MB 的环境。

有没有更轻的方式?有。Kimi WebBridge 的思路是:别折腾了,直接用你现在的浏览器。


Kimi WebBridge 是什么

Kimi WebBridge 是月之暗面推出的浏览器操作工具。核心卖点一句话:寄生在你的真实浏览器上,AI 操控它的时候,自动继承你的登录态、Cookie 和代理配置。

不需要装额外的浏览器,不需要管理 auth.json,不需要配代理——你浏览器什么样,AI 拿到的就是什么样。

它的架构长这样:

Kimi-WebBridge-架构图.png 图:Kimi WebBridge 三层架构 — AI Agent 通过 HTTP API 调用本地守护进程,守护进程通过浏览器扩展操控真实浏览器

三层协作:

  1. AI Agent 通过 HTTP POST 发指令到 127.0.0.1:10086
  2. 本地守护进程(一个 Go 写的后台程序)接收指令,通过 WebSocket 转发给浏览器扩展
  3. 浏览器扩展 通过 Chrome DevTools Protocol(CDP)操控你的真实浏览器

关键设计:HTTP API。 任何能发 curl 的工具都能用,不依赖 Python、Node.js 或者某个特定 SDK。LLM 直接在 bash 里 curl 就能操作浏览器,不需要额外装任何东西。

这也是它和 Playwright 最大的架构差异——Playwright 是 SDK 绑定的(Python、JS、Java),WebBridge 是语言无关的(HTTP)。


10 分钟上手

安装不复杂,三步走。

第一步:一键安装守护进程。

curl -fsSL https://cdn.kimi.com/webbridge/install.sh | bash

这个脚本会自动检测你的系统和架构,下载二进制文件到 ~/.kimi-webbridge/bin/,然后启动后台守护进程。

第二步:安装浏览器扩展。

打开 Chrome 或 Edge,访问 www.kimi.com/features/we…,点击安装扩展。装完后打开任意网页,扩展图标显示"Connected"就说明桥接成功了。

(Brave 浏览器也能用——它是 Chromium 内核,支持 Chrome Web Store 扩展,实测 OK。但官方只声明了 Chrome 和 Edge,Brave 属于"能跑但不保证"的范畴。)

第三步(openCode 用户):迁移 SKILL 配置。

Kimi 官方安装脚本默认会把 SKILL 安装到 ~/.claude/ 目录下(面向 Claude Code 用户)。openCode 用户需要手动将 SKILL 从 ~/.claude/skills/kimi-webbridge/ 移动到 openCode 的配置目录:

cp -r ~/.claude/skills/kimi-webbridge ~/.config/opencode/skills/kimi-webbridge

安装完成后,openCode 里的 AI Agent 就能自动调用 WebBridge 来操作浏览器了。日常管理用这几个命令:

kimi-webbridge status    # 检查守护进程和扩展连接状态
kimi-webbridge start     # 启动守护进程
kimi-webbridge stop      # 停止守护进程
kimi-webbridge restart   # 重启守护进程

小小实战测试:V2EX 热榜数据采集

光说不练假把式。我用 WebBridge 做了一个真实测试:让 AI 操控我的 Brave 浏览器,去 V2EX 抓热榜数据。

测试环境:

  • 模型:DeepSeek V4 Pro
  • 平台:openCode
  • 浏览器:Brave(日常使用的)
  • 任务:抓取 V2EX 当日热榜 TOP 20 + 5 个精选话题的正文和前 10 条评论

整个流程不需要我做任何登录操作——V2EX 的登录态浏览器里本来就有,WebBridge 自动继承了。

AI 的操作流程很直接:打开 V2EX 热榜页面 → 用 JS 提取页面数据 → 并行打开 5 个话题详情 → 提取正文和评论 → 整理输出为结构化 Markdown。

结果:6 个页面全部成功抓取,成功率 100%。

更让人舒服的是费用,以下是我 DeepSeek 后台的账单数据,总费用 0.19 元,可以说十分便宜了:

V2EX测试费用账单截图.png 图:DeepSeek V4 Pro + Kimi WebBridge 完成 V2EX 热榜数据采集的实际账单,总费用 0.19 元

任务完成后 OpenCode 显示 Context 大约为 35K tokens 左右。对比如果用 Playwright CLI 逐步操作(每步都要 snapshot → LLM 分析 → 决定下一步 → 再 snapshot),预计token 消耗估计翻 3-5 倍,还有网络等问题都需要处理。


Kimi WebBridge 为我解决了什么问题

测试下来,WebBridge 最让我舒服的地方有三个。

不再需要"再登一次"。

GitHub、Google、知乎、小红书、V2EX……只要我浏览器里登着,AI 直接用。不需要扫码,不需要保存 auth.json,不需要担心登录态过期——我每天打开浏览器正常上网,登录态自然续着。

代理配置零门槛。

我日常用的 Brave 浏览器配了代理(办公网络环境)。WebBridge 操控 Brave 的时候,代理自动生效——不需要在脚本里配 HTTPS_PROXY,不需要在 curl 里加 --proxy。它就是直接用我浏览器的网络通道。

Token 效率意外地高。

WebBridge 获取页面信息默认用 Accessibility Snapshot——不是截图,而是文本化的"页面可访问性树"。每个交互元素带上 @e 编号,AI 可以用编号来定位和操作。

这种文本化的方式比截图省 token 得多——截图需要视觉模型逐像素分析,消耗惊人;Snapshot 只返回页面结构化的文本描述,一个量级的差距。也比直接塞原始 HTML 高效,因为 Snapshot 过滤掉了 <script><style> 等噪音标签,只保留真正有用的交互元素。

而且如果页面的数据结构简单(比如 V2EX),可以直接用 evaluate 执行 JS 提取数据,省掉 Snapshot 的消耗。实际测试中,V2EX 抓取全程用 evaluate 返回结构化 JSON,非常高效。


坑也要说

不过缺点也得摊开讲,不能光说好的。

最大的坑:验证码搞不定。

我在测试中尝试让 WebBridge 自动登录 Gitee,结果卡在了滑动验证码上。

原因是一个叫 isTrusted 的浏览器安全机制:用户真实的鼠标点击 → isTrusted = true,CDP 合成的点击 → isTrusted = false。Gitee 的验证码检测了这个字段,直接判定为机器人,验证失败(也有可能是滑动操作太久导致页面验证码失效)。

这个问题不是 WebBridge 的 bug——Playwright 也有同样的问题,因为两者底层都是通过 CDP 合成事件。它是浏览器的安全模型限制,目前无解。

不能无人值守。

WebBridge 操控的是你的真实浏览器,所以浏览器必须开着。你不能在睡觉前跟 Agent 说"帮我半夜抓一批数据"然后去睡觉——窗口关了它就停了。

这是取舍:它牺牲了"无人值守"换来了"零配置登录态"。如果你需要 24/7 定时任务,还是得用 Playwright 的无头模式。(对我来说这一点还好,日常我的浏览器也是一直打开的)

截图需要视觉模型。

WebBridge 支持截图,但要"理解"截图内容,需要能处理图片的视觉模型(GPT-4o、Claude 3.5 Sonnet 等)。纯文本模型拿到截图也没用。不过我通常用 evaluate 和 snapshot 就够了,截图不是刚需。


总结:暂时都要,倾向 WebBridge

上期聊完 Playwright,这期聊完 WebBridge,工具多了,选哪个?

先看优缺点一览:

对比表格.png 图:Kimi WebBridge 与 Playwright 全方位对比

我的选择是:日常临时操作用 WebBridge,固定批量抓取保留 Playwright。

WebBridge 适合的场景非常明确:临时让 AI 帮你查个东西、操作一下某个已经登录的网站、快速抓一批不需要验证码的数据。随手可用,零配置,token 也省。它就是一把"更轻的铲子",放在手边,随时能用。

但如果你有固定化的数据采集需求——每天定时从某网站抓一遍数据——我还是建议用 Python 写 Playwright 脚本。因为固定流程写成脚本之后,反复执行的 token 成本更低(只有抓取本身的资源消耗),不需要每一步都让 LLM 做决策。LLM 实时驾驶虽然灵活,但灵活是有价格的。

目前看来,我认为 WebBridge 比 Playwright CLI 轻,比 Python 脚本定制灵活,是日常使用最顺手的那一档。

如果你也被 Playwright 的环境配置和登录态管理折腾过,试试 WebBridge。十分钟装好,然后对着 Agent 说一句"帮我查个东西",看看它用你自己的浏览器帮你搞定——那感觉挺妙的。


工具地址:www.kimi.com/features/we… 上期回顾:给 AI 装上"眼睛和手"——Playwright 浏览器自动化实战指南

内容第一时间更新到我的公众号,欢迎关注

公众号二维码.jpg