browserbase/skills:给你一双眼,为 Claude Agent 提供网页浏览能力的 SDK,封装了浏览器自动化、截图、DOM 交互等能力|Github Daily

2 阅读8分钟

Github Daily

browserbase/skills

Claude Agent 的「眼睛」来了——让 AI 真正看懂并操作网页

2026-05-05 · GitHub Trending 🔥 +1,840 Stars

📊 项目速览

项目名称browserbase/skills

Stars⭐ 39,339

今日新增**+1,840 🔥**

主要语言TypeScript

GitHub 地址github.com/browserbase…

一句话介绍为 Claude Agent 提供网页浏览能力的 SDK,封装了浏览器自动化、截图、

DOM 交互等能力

🤔 它能解决什么问题?

你有没有遇到过这样的场景:

你对 Claude Code 说:"帮我看看竞品的首页有什么新功能",Claude 只能尴尬地回答:"我无法访问网页,请把内容复制给我。"

或者你想让 AI 帮你自动登录后台系统导出报表,但 AI 对那些需要 JavaScript 渲染的动态页面完全"失明"——fetch() 拿到的只是空壳 HTML,真正的内容在 JS 执行之后才出现。

这就是 browserbase/skills 要解决的核心痛点:让 AI Agent 像人一样"看"网页、"操作"网页,而不只是处理静态文本。

💡 核心思路:不依赖 API,只依赖浏览器。只要人能操作的网页,AI 就能操作。每次 AI 执行操作后,系统自动返回当前页面的截图文本摘要,Claude 通过"看到"前后页面的变化来判断操作是否成功。

这种视觉反馈循环是传统自动化脚本做不到的——传统脚本在选择器失效或页面结构变化时就会崩溃,但有了视觉反馈,AI 能发现"按钮没点动,可能弹窗挡住了",然后自动调整策略。

✨ 核心亮点

1. 三层架构设计,专为 AI Agent 优化

browserbase/skills 采用精心设计的三层架构,让 AI 能够高效、稳定地操作浏览器:

🌐

浏览器层

基于 Playwright 的 headless 浏览器实例,负责实际渲染和交互,支持 Chromium / Firefox / WebKit

🔧

抽象层

将复杂的浏览器操作(等待元素加载、处理弹窗、切换标签页)简化为几个原子工具,AI 调用零门槛

🤖

AI 适配层

将工具描述转化为 Claude 能理解的函数调用格式,并处理多轮对话中的上下文管理

👁️

视觉反馈循环

每次操作自动返回截图 + 文本摘要,AI 通过"看到"页面变化判断操作是否成功

2. 四大 Skill 模块,覆盖全工作流

browserbase/skills 不是一个单一工具,而是一套完整的技能包,包含四个独立模块:

模块核心能力适用场景
browser
交互式浏览器自动化,支持截图、点击、输入、滚动等操作,通过 browse CLI 使用
需要"看"页面的场景:采集数据、操作网页、表单填写
fetch
轻量级页面内容获取,通过 Browserbase Fetch API 快速提取页面内容、 headers 和元数据
只需要获取页面内容,不需要交互的场景
functions
将浏览器 Agent 部署为 Browserbase Functions,支持定时执行或 Webhook 触发
需要定期执行的自动化任务,如每日数据采集
browserbase-cli
通过 bb CLI 管理 Browserbase 平台资源:Functions、Sessions、Projects、Contexts、Extensions
管理多个浏览器会话、项目配置、持久化登录态

3. 会话持久化 + 反检测,生产级可靠性

真正的企业级能力,让 AI 自动化不再"脆弱":

会话持久化

保持登录状态和 Cookie,实现多步骤操作。首次登录后保存 Session,后续 AI 可以复用,无需重复登录。

反检测机制

内置指纹伪装,减少被网站拦截的概率。自动处理 headless 检测、WebDriver 标识屏蔽等问题。

云端浏览器支持

通过 Browserbase 云平台,可以在无本地浏览器的环境中运行,支持并行任务执行。

4. 与同类方案的定位差异

在 Claude Code 生态中,浏览器自动化有多个方案。browserbase/skills 的独特价值在于:

方案核心特点Token 消耗推荐场景
browserbase/skills
完整 Skill 包,四模块覆盖,云端+本地双模
中等
需要完整浏览器能力的生产场景
Browser-use
三种浏览器模式,云端并行,会话持久化
极低
需要登录态/并行采集/反爬绕过
Agent Browser
Snapshot + Refs 机制,极简 Token 消耗
极低(减少93%)
快速浏览、截图、简单操作
Playwright CLI
数据存磁盘不占上下文,50+ 命令全覆盖
极低(减少75-99%)
编程 Agent 长时间自动化任务

🎯 选型建议:如果你需要 AI 具备完整的网页浏览和操作能力,且希望在生产环境中稳定运行,browserbase/skills 是目前最完整的解决方案。如果只做简单浏览,可以搭配 Agent Browser 使用以节省 Token。

🚀 实战场景展示

browserbase/skills 能让 Claude Agent 在以下场景中真正"动起来":

场景一:竞品监测

你说:"帮我打开竞品 A、B、C 的首页,截图并分析他们最近上线的新功能"
AI 做:依次打开三个网站 → 等待页面加载 → 截图 → 通过视觉理解分析页面变化 → 整理成对比报告返回

场景二:自动化后台操作

你说:"登录我的 Shopify 后台,导出上个月的订单数据,保存为 CSV"
AI 做:打开登录页 → 填写账号密码 → 等待导航 → 找到订单导出功能 → 选择日期范围 → 点击导出 → 确认下载

场景三:动态页面数据采集

你说:"打开这个房地产网站,收集前 50 个房源的价格、面积和地址"
AI 做:打开网页 → 等待列表加载 → 滚动加载更多 → 提取结构化数据 → 自动翻页 → 整合结果返回

场景四:UI 自动化测试

你说:"测试一下登录流程:输入错误密码应该显示错误提示,输入正确密码应该跳转到主页"
AI 做:执行测试步骤 → 每个步骤后截图验证 → 通过视觉理解判断页面状态是否符合预期 → 生成测试报告

🛠️ 上手指南

browserbase/skills 提供三种安装方式,推荐根据你的使用场景选择:

方式一:Vercel Skills CLI(推荐)

1

安装 Skill

根据你需要的功能模块,选择安装对应的 skill:

# 安装浏览器自动化模块(最常用)
npx skills add browserbase/skills --skill browser

# 安装轻量级页面获取模块
npx skills add browserbase/skills --skill fetch

# 安装 Functions 部署模块
npx skills add browserbase/skills --skill functions

# 安装 Browserbase CLI 管理模块
npx skills add browserbase/skills --skill browserbase-cli

2

安装 Browserbase CLI

Skill 安装完成后,需要安装对应的命令行工具:

# 安装 Browserbase 平台 CLI
npm install -g @browserbasehq/cli

# 如果使用 browser 模块,还需安装 browse CLI
npm install -g @browserbasehq/browse-cli

方式二:Claude Code 插件市场

如果你使用 Claude Code,可以直接从插件市场安装:

# 添加 Browserbase 插件市场
claude plugin marketplace add browserbase/skills

# 安装需要的插件
claude plugin install browse@browserbase --scope local
claude plugin install fetch@browserbase --scope local
claude plugin install functions@browserbase --scope local
claude plugin install browserbase-cli@browserbase --scope local

# 安装 CLI 工具
npm install -g @browserbasehq/cli
npm install -g @browserbasehq/browse-cli

方式三:OpenClaw / ClawHub

如果你使用 OpenClaw,可以从 ClawHub 安装浏览器技能:

# 从 ClawHub 安装浏览器技能
clawhub install browse

# 配置 Browserbase 凭证(会自动保存到 ~/.openclaw/openclaw.json)
openclaw browserbase setup

# 安装 browse CLI
npm install -g @browserbasehq/browse-cli

配置 API Key

所有 bb 命令需要 Browserbase API Key,先到 browserbase.com 注册获取:

# 设置环境变量
export BROWSERBASE_API_KEY="your_api_key_here"

# 或者添加到 ~/.bashrc 或 ~/.zshrc 使其永久生效
echo 'export BROWSERBASE_API_KEY="your_api_key_here"' >> ~/.zshrc

快速验证:用自然语言指挥 AI

安装完成后,你可以直接在 Claude Code 中用自然语言使用:

# 示例 1:探索网站结构
"Use the browse skill to explore https://news.ycombinator.com and identify the selectors for story titles and scores"

# 示例 2:执行浏览器自动化
"用 browse skill 打开 https://example.com,截图保存,然后告诉我页面主标题是什么"

# 示例 3:使用 Browserbase CLI
"Use the browserbase-cli skill to list my Browserbase projects with bb and show the result as JSON"

# 示例 4:保存和复用登录态
"用 browse 打开 xxx.com 让我登录,然后保存登录 Session,下次直接用"

📝 今日总结

browserbase/skills 的意义,不只是"给 Claude 加了一个浏览器"——它代表了 AI Agent 从「对话式」向「行动式」演进的关键基础设施。

当 AI 能真正"看"懂网页、操作网页,以下场景将成为可能:

✅ 自动监测竞品动态,每日生成对比报告
✅ 代替你操作后台系统,完成重复性工作流程
✅ 从复杂动态页面中采集数据,不需要写一行爬虫代码
✅ 执行 UI 自动化测试,AI 自动理解页面变化

本期项目的独特价值在于:它不是又一个"浏览器自动化工具",而是专为 AI Agent 设计的、生产级可靠的浏览器能力包。三层架构、四大模块、会话持久化、反检测——这些特性让它真正能在生产环境中稳定运行。

💬 你最想让 AI 帮你自动操作哪个网站?欢迎在评论区分享你的想法!

#Claude Code#浏览器自动化#AI Agent#MCP#browserbase#GitHub Trending

每日开源 · Github Daily

每天一个值得深读的开源项目 🚀