v-browser：直接接管当前已登录浏览器的 V 语言自动化 CLIv-browser：直接接管当前已登录浏览器的 V

v-browser：直接接管当前已登录浏览器的 V 语言自动化 CLI

很多浏览器自动化工具的默认思路，都是先拉起一个全新的浏览器进程，再从一个干净上下文里开始执行。

但真实业务一上来就会碰到几个问题：

v-browser 就是沿着这个方向做的。它是一个用 V 语言实现的浏览器自动化 CLI，通过本地 daemon 加浏览器扩展接入 Chrome DevTools Protocol，给 AI Agent 和脚本提供一套稳定、直接、可组合的命令面。

这是 v-browser 和很多传统自动化方案最不一样的地方。v-browser 不是优先去起一个新的独立浏览器，而是通过扩展把你当前正在使用的 Chromium 内核浏览器桥接到本地 relay，然后 attach 当前页面。

这意味着：

换句话说，v-browser 更像是在说：不要重新造一个浏览器环境，直接接管我眼前这个已经登录好的浏览器。

v-browser 的核心链路很直接：

它没有把运行时建立在 chromedriver、selenium server 或额外的驱动下载机制上，而是尽量把链路收敛成本地二进制加扩展加当前浏览器。

这带来几个很实际的收益：部署和分发更轻，出问题时更容易排查，对脚本和 Agent 来说命令也更清晰。严格来说，扩展前端在开发阶段仍然需要构建一次，但从运行和分发角度看，server 端就是一个非常清爽的独立二进制方案。

v-browser 不是只把点击、输入做一遍封装，而是明显在为 Agent 调用设计命令接口。

它现在这套能力很适合 Agent 场景：

尤其是 snapshot 这类能力，对 Agent 很重要。很多时候，Agent 需要的不是猜一个 CSS selector，而是先拿到一个可引用、可理解的页面结构，再决定下一步操作。

v-browser 的 nightly release 直接提供多平台压缩包，核心产物包括：

也就是说，server 和 CLI 端直接下载对应平台二进制即可，扩展单独打包分发，发布物结构也很直观。

对于本地 CLI、Agent Runtime、自动化中间层这类项目来说，V 的几个特性很契合：

v-browser 的结构可以概括成三层：

这套设计最关键的点，不是能不能控制浏览器，而是控制的是不是你真实在用的那一个浏览器上下文。

以 GitHub 为例，典型流程非常短：

cd packages/server
./v-browser connect
./v-browser open https://github.com/whiter001/v-browser
./v-browser snapshot
./v-browser eval document.title

如果你已经在浏览器里登录了 GitHub，那么这套操作就是在你的真实登录态里执行，而不是在一个新的隔离浏览器里再登录一遍。

比如读取页面内容、点击按钮、填表、提交表单、截图、执行一段页面内 JS。这类动作如果能直接发生在当前已登录浏览器里，成功率和实用性都会明显提升。

像掘金、GitHub、微信公众号后台、管理台这类平台，经常要求真实登录态、图形化交互和复杂上下文。v-browser 这种复用当前浏览器环境的方案，天然更贴近真实工作流。

因为它本质上是一个 CLI，而且输出也适合继续被脚本消费，所以很适合接进 CI、本地脚本、Agent runtime，或者作为更大自动化系统里的浏览器执行层。

浏览器自动化工具很多，但真正适合 AI Agent 和真实业务场景的，并不只是 API 丰富就够了。更关键的是，能不能复用当前浏览器的真实状态，能不能避免额外的驱动和笨重依赖，能不能用一套足够稳定的 CLI 接口让 Agent 连续工作，能不能方便分发。

v-browser 在这些点上的取舍，我觉得是非常清晰的。

如果你正在做 AI Agent 浏览器操作、内容后台自动化，或者想把浏览器能力封装成一个可分发、可组合、可集成的独立 CLI，这个项目很值得关注。

项目地址再放一次： github.com/whiter001/v…