🔥 给 AI 装上「眼睛」:6 大浏览器工具组合拳,让你的 Agent 看懂整个互联网
💡 本文适合:正在搭建 AI Agent 的开发者 / 想让 LLM 能「看网页」的同学 / 对自动化感兴趣的全栈工程师 阅读时间:约 8 分钟 | 收藏 = 学会 🌟
前言:AI 再聪明,不能上网就是「瞎子」
2025 年了,大模型写代码、写文案、做分析已经不稀奇。
但你有没有遇到这样的场景:
- 让 AI 帮你监控竞品价格 —— 它看不到网页
- 让 AI 自动填个表单提交 —— 它点不了按钮
- 让 AI 爬一整个文档站喂给 RAG —— 它不知道从哪开始
- 让 AI 操作你的 Windows 桌面应用 —— 它连窗口都找不到
问题出在哪?
AI 有脑子,但没有「眼睛」和「手」。
今天这篇文章,我把自己在搭建 Bookworm Smart Assistant 过程中踩过的坑、试过的工具,整理成一套 6 大工具组合拳,帮你的 AI Agent 从「瞎子」变成「千里眼 + 顺风耳」。
一、先看全景:6 大工具一图流
别急着深入,先看看这 6 个工具分别是什么「人设」:
| 🎭 Playwright | 🔧 DevTools | ☁️ Browserbase | 🧹 Scrapling | 🔥 Firecrawl | 🖥️ PyWinAuto | |
|---|---|---|---|---|---|---|
| 人设 | 网页机器人手 | 网页 X 光机 | 云端浏览器农场 | 轻量数据吸尘器 | 全能网页收割机 | 桌面应用遥控器 |
| 一句话 | 模拟真人操作浏览器 | 透视页面底层 | 云端开 N 个浏览器 | 轻量抓取 HTML | 整站变 Markdown | 操控 Windows 窗口 |
| 费用 | ✅ 免费 | ✅ 免费 | ⚠️ 需 API Key | ✅ 免费 | ⚠️ 有免费额度 | ✅ 免费 |
看到这里你可能会问:这么多工具,我到底该用哪个?
别慌,往下看 👇
二、按场景选工具:三个问题定乾坤
我把选型总结成 3 个灵魂拷问:
问题 1️⃣:你需要「看」还是「动手」?
👀 只需要「看」(提取数据):
- 🔥 Firecrawl → 整站爬取,输出干净 Markdown,LLM 直接吃
- 🧹 Scrapling → 单页提取,免费无限,够轻够快
🖐️ 需要「动手」(点击/填表/操作):
- 🎭 Playwright → 本地无头浏览器,模拟真人
- ☁️ Browserbase → 云端集群,大规模 + 反反爬
问题 2️⃣:你操作的是网页还是桌面应用?
- 网页 → 上面 5 个工具随便挑
- 桌面应用(微信、Excel、Clash……)→ 只有 🖥️ PyWinAuto 能干
问题 3️⃣:你需要调试还是生产?
- 调试/分析 → 🔧 Chrome DevTools(看网络请求、性能瓶颈、Console 日志)
- 生产环境跑 → 其他 5 个工具(DevTools 需要前台,不适合后台自动化)
三、重点对决:Scrapling vs Firecrawl
这两个工具功能最容易搞混,都是「提取数据」,到底选谁?
⚔️ 简单记忆:小活儿用 Scrapling,大活儿用 Firecrawl。
| 场景 | 选谁 | 为什么 |
|---|---|---|
| 抓单个页面数据 | 🧹 Scrapling | 免费、快、零配置 |
| 整站爬取(几十上百页) | 🔥 Firecrawl | 自动发现链接,递归爬取 |
| 喂给 LLM / RAG | 🔥 Firecrawl | 输出干净 Markdown,token 省一半 |
| 目标站有反爬 | 🔥 Firecrawl | 内置 JS 渲染 + 反反爬 |
| 预算为零 | 🧹 Scrapling | 完全开源免费 |
| 搜索引擎式查询 | 🔥 Firecrawl | 内置 search API |
四、实战:我是怎么在 Bookworm 里串起来的
在我的 Bookworm Smart Assistant 里,这 6 个工具不是孤立使用的,而是通过一个 触发词路由层 自动调度:
用户说「截图那个网页」 → 路由到 Playwright
用户说「帮我抓下这个价格」 → 路由到 Scrapling
用户说「把这个文档站爬下来」→ 路由到 Firecrawl
用户说「帮我开下 Clash」 → 路由到 PyWinAuto
完整的路由映射表:
| 用户意图关键词 | 路由目标 |
|---|---|
| 截图网页 · 自动填表 · 测试页面 · 登录操作 | 🎭 Playwright |
| 网络请求 · 性能分析 · Console · 调试页面 | 🔧 Chrome DevTools |
| 批量抓取 · 绕过反爬 · 大规模采集 · 云端浏览器 | ☁️ Browserbase |
| 提取数据 · 抓价格 · 解析页面 · 轻量抓取 | 🧹 Scrapling |
| 整站爬取 · 转 Markdown · 网页搜索 · LLM 分析网页 | 🔥 Firecrawl |
| 操控桌面 · 打开应用 · 点击窗口 · 操作 Clash | 🖥️ PyWinAuto |
💡 这样做的好处:用户不需要知道底层用了什么工具,只要用自然语言描述需求,Agent 自动匹配最优方案。
五、完整能力矩阵(收藏备查)
最后放一张完整的对比表,建议 收藏 📌,选型时直接翻:
| 🎭 Playwright | 🔧 DevTools | ☁️ Browserbase | 🧹 Scrapling | 🔥 Firecrawl | 🖥️ PyWinAuto | |
|---|---|---|---|---|---|---|
| 操控对象 | 无头浏览器 | 本机 Chrome | 云端浏览器集群 | HTTP 响应 | HTTP + JS 渲染 | Windows 程序 |
| JS 渲染 | ✅ 完整 | ✅ 完整 | ✅ 完整 | ⚠️ 部分 | ✅ 完整 | N/A |
| 能交互 | ✅ 点击/填表 | ✅ 实时操作 | ✅ 点击/填表 | ❌ 只读 | ❌ 只读 | ✅ 点击/输入 |
| 批量能力 | 单页 | 单页 | ✅ 多实例并行 | ✅ 高并发 | ✅ 整站爬取 | 单窗口 |
| 反反爬 | 一般 | 好 | ✅ 专业指纹 | ✅ 内置 | ✅ 内置 | N/A |
| 输出格式 | DOM / 截图 | DOM / 网络日志 | DOM / 截图 | HTML / JSON | Markdown / JSON | 控件值 |
| LLM 友好 | 一般 | 一般 | 一般 | 一般 | ✅ 专为 LLM 优化 | 一般 |
| 后台运行 | ✅ | ❌ 需前台 | ✅ | ✅ | ✅ | ✅ |
| 费用 | ✅ 免费 | ✅ 免费 | ⚠️ 需 API Key | ✅ 免费 | ⚠️ 有免费额度 | ✅ 免费 |
写在最后
很多人在搭 AI Agent 的时候,花 90% 的精力在优化 prompt、调模型参数,却忽略了一个根本问题:
模型再强,没有感知外部世界的能力,就只是一个高级文字接龙。
给 AI 装上「眼睛」(网页感知)和「手」(操作能力),才是让 Agent 真正能干活的关键一步。
这 6 个工具就是我目前跑通的最佳组合。不一定完美,但绝对实用。
🙌 如果这篇文章对你有帮助: 👍 点个赞,让更多人看到 ⭐ 收藏起来,选型时翻出来看 💬 评论区聊聊你在用什么工具给 AI 当「眼睛」 🔔 关注我,后续会分享 Bookworm 的更多架构细节