Kimi WebBridge，AI 操作浏览器更好的一把铲子Kimi WebBridge，AI 操作浏览器更好的一把铲子

Kimi WebBridge，AI 操作浏览器更好的一把铲子

上期给大家介绍了 Playwright 浏览器自动化实战指南，给 AI 装上了“眼睛和手”。没看过的同学可以先回去翻翻：给 AI 装上"眼睛和手"——Playwright 浏览器自动化实战指南。

那篇文章里，我介绍了我对 Playwright 的两种使用方式，各有优劣。

今天我们聊一个"轻装备"：Kimi WebBridge。如果你觉得 Playwright 太重、登录态管理太烦、代理配置太绕，那这东西可能就是你要找的。

Playwright 的两个"真疼"

先说痛点，不然你不知道 WebBridge 好在哪。

玩过 Playwright 的同学应该都有体会，最烦的不是写脚本，是两件事：

第一，登录态管理。

Playwright 启动的是一个"干净的"浏览器实例——没有你的 Cookie，没有你的登录态。想让它访问你的 GitHub、知乎、小红书？不好意思，先手动登录一遍，然后 state-save 保存到 auth.json，下次再 state-load 加载回来。登录态过期了？再来一遍。

说白了就是：你明明浏览器里已经登着，Playwright 非要让你再登一次。

第二，环境配置。

Python Playwright 要先 pip install playwright，再 playwright install chromium，下载一个独立的 Chromium 浏览器。如果你的网络需要代理，还得配 HTTPS_PROXY 环境变量。如果你的系统没装 Node.js，Playwright CLI 还用不了。

一句话：为了拿 10KB 的数据，你得先折腾 200MB 的环境。

有没有更轻的方式？有。Kimi WebBridge 的思路是：别折腾了，直接用你现在的浏览器。

Kimi WebBridge 是什么

Kimi WebBridge 是月之暗面推出的浏览器操作工具。核心卖点一句话：寄生在你的真实浏览器上，AI 操控它的时候，自动继承你的登录态、Cookie 和代理配置。

不需要装额外的浏览器，不需要管理 auth.json，不需要配代理——你浏览器什么样，AI 拿到的就是什么样。

它的架构长这样：

Kimi-WebBridge-架构图.png 图：Kimi WebBridge 三层架构 — AI Agent 通过 HTTP API 调用本地守护进程，守护进程通过浏览器扩展操控真实浏览器

三层协作：

AI Agent 通过 HTTP POST 发指令到 127.0.0.1:10086
本地守护进程（一个 Go 写的后台程序）接收指令，通过 WebSocket 转发给浏览器扩展
浏览器扩展 通过 Chrome DevTools Protocol（CDP）操控你的真实浏览器

关键设计：HTTP API。 任何能发 curl 的工具都能用，不依赖 Python、Node.js 或者某个特定 SDK。LLM 直接在 bash 里 curl 就能操作浏览器，不需要额外装任何东西。

这也是它和 Playwright 最大的架构差异——Playwright 是 SDK 绑定的（Python、JS、Java），WebBridge 是语言无关的（HTTP）。

10 分钟上手

安装不复杂，三步走。

第一步：一键安装守护进程。

curl -fsSL https://cdn.kimi.com/webbridge/install.sh | bash

这个脚本会自动检测你的系统和架构，下载二进制文件到 ~/.kimi-webbridge/bin/，然后启动后台守护进程。

第二步：安装浏览器扩展。

打开 Chrome 或 Edge，访问 www.kimi.com/features/we…，点击安装扩展。装完后打开任意网页，扩展图标显示"Connected"就说明桥接成功了。

（Brave 浏览器也能用——它是 Chromium 内核，支持 Chrome Web Store 扩展，实测 OK。但官方只声明了 Chrome 和 Edge，Brave 属于"能跑但不保证"的范畴。）

第三步（openCode 用户）：迁移 SKILL 配置。

Kimi 官方安装脚本默认会把 SKILL 安装到 ~/.claude/ 目录下（面向 Claude Code 用户）。openCode 用户需要手动将 SKILL 从 ~/.claude/skills/kimi-webbridge/ 移动到 openCode 的配置目录：

cp -r ~/.claude/skills/kimi-webbridge ~/.config/opencode/skills/kimi-webbridge

安装完成后，openCode 里的 AI Agent 就能自动调用 WebBridge 来操作浏览器了。日常管理用这几个命令：

kimi-webbridge status    # 检查守护进程和扩展连接状态
kimi-webbridge start     # 启动守护进程
kimi-webbridge stop      # 停止守护进程
kimi-webbridge restart   # 重启守护进程

小小实战测试：V2EX 热榜数据采集

光说不练假把式。我用 WebBridge 做了一个真实测试：让 AI 操控我的 Brave 浏览器，去 V2EX 抓热榜数据。

测试环境：

模型：DeepSeek V4 Pro
平台：openCode
浏览器：Brave（日常使用的）
任务：抓取 V2EX 当日热榜 TOP 20 + 5 个精选话题的正文和前 10 条评论

整个流程不需要我做任何登录操作——V2EX 的登录态浏览器里本来就有，WebBridge 自动继承了。

AI 的操作流程很直接：打开 V2EX 热榜页面 → 用 JS 提取页面数据 → 并行打开 5 个话题详情 → 提取正文和评论 → 整理输出为结构化 Markdown。

结果：6 个页面全部成功抓取，成功率 100%。

更让人舒服的是费用，以下是我 DeepSeek 后台的账单数据，总费用 0.19 元，可以说十分便宜了：

V2EX测试费用账单截图.png 图：DeepSeek V4 Pro + Kimi WebBridge 完成 V2EX 热榜数据采集的实际账单，总费用 0.19 元

任务完成后 OpenCode 显示 Context 大约为 35K tokens 左右。对比如果用 Playwright CLI 逐步操作（每步都要 snapshot → LLM 分析 → 决定下一步 → 再 snapshot），预计token 消耗估计翻 3-5 倍，还有网络等问题都需要处理。

Kimi WebBridge 为我解决了什么问题

测试下来，WebBridge 最让我舒服的地方有三个。

不再需要"再登一次"。

GitHub、Google、知乎、小红书、V2EX……只要我浏览器里登着，AI 直接用。不需要扫码，不需要保存 auth.json，不需要担心登录态过期——我每天打开浏览器正常上网，登录态自然续着。

代理配置零门槛。

我日常用的 Brave 浏览器配了代理（办公网络环境）。WebBridge 操控 Brave 的时候，代理自动生效——不需要在脚本里配 HTTPS_PROXY，不需要在 curl 里加 --proxy。它就是直接用我浏览器的网络通道。

Token 效率意外地高。

WebBridge 获取页面信息默认用 Accessibility Snapshot——不是截图，而是文本化的"页面可访问性树"。每个交互元素带上 @e 编号，AI 可以用编号来定位和操作。

这种文本化的方式比截图省 token 得多——截图需要视觉模型逐像素分析，消耗惊人；Snapshot 只返回页面结构化的文本描述，一个量级的差距。也比直接塞原始 HTML 高效，因为 Snapshot 过滤掉了 <script>、<style> 等噪音标签，只保留真正有用的交互元素。

而且如果页面的数据结构简单（比如 V2EX），可以直接用 evaluate 执行 JS 提取数据，省掉 Snapshot 的消耗。实际测试中，V2EX 抓取全程用 evaluate 返回结构化 JSON，非常高效。

坑也要说

不过缺点也得摊开讲，不能光说好的。

最大的坑：验证码搞不定。

我在测试中尝试让 WebBridge 自动登录 Gitee，结果卡在了滑动验证码上。

原因是一个叫 isTrusted 的浏览器安全机制：用户真实的鼠标点击 → isTrusted = true，CDP 合成的点击 → isTrusted = false。Gitee 的验证码检测了这个字段，直接判定为机器人，验证失败（也有可能是滑动操作太久导致页面验证码失效）。

这个问题不是 WebBridge 的 bug——Playwright 也有同样的问题，因为两者底层都是通过 CDP 合成事件。它是浏览器的安全模型限制，目前无解。

不能无人值守。

WebBridge 操控的是你的真实浏览器，所以浏览器必须开着。你不能在睡觉前跟 Agent 说"帮我半夜抓一批数据"然后去睡觉——窗口关了它就停了。

这是取舍：它牺牲了"无人值守"换来了"零配置登录态"。如果你需要 24/7 定时任务，还是得用 Playwright 的无头模式。（对我来说这一点还好，日常我的浏览器也是一直打开的）

截图需要视觉模型。

WebBridge 支持截图，但要"理解"截图内容，需要能处理图片的视觉模型（GPT-4o、Claude 3.5 Sonnet 等）。纯文本模型拿到截图也没用。不过我通常用 evaluate 和 snapshot 就够了，截图不是刚需。

总结：暂时都要，倾向 WebBridge

上期聊完 Playwright，这期聊完 WebBridge，工具多了，选哪个？

先看优缺点一览：

对比表格.png 图：Kimi WebBridge 与 Playwright 全方位对比

我的选择是：日常临时操作用 WebBridge，固定批量抓取保留 Playwright。

WebBridge 适合的场景非常明确：临时让 AI 帮你查个东西、操作一下某个已经登录的网站、快速抓一批不需要验证码的数据。随手可用，零配置，token 也省。它就是一把"更轻的铲子"，放在手边，随时能用。

但如果你有固定化的数据采集需求——每天定时从某网站抓一遍数据——我还是建议用 Python 写 Playwright 脚本。因为固定流程写成脚本之后，反复执行的 token 成本更低（只有抓取本身的资源消耗），不需要每一步都让 LLM 做决策。LLM 实时驾驶虽然灵活，但灵活是有价格的。

目前看来，我认为 WebBridge 比 Playwright CLI 轻，比 Python 脚本定制灵活，是日常使用最顺手的那一档。

如果你也被 Playwright 的环境配置和登录态管理折腾过，试试 WebBridge。十分钟装好，然后对着 Agent 说一句"帮我查个东西"，看看它用你自己的浏览器帮你搞定——那感觉挺妙的。

工具地址：www.kimi.com/features/we… 上期回顾：给 AI 装上"眼睛和手"——Playwright 浏览器自动化实战指南

内容第一时间更新到我的公众号，欢迎关注

公众号二维码.jpg