视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表

0 阅读4分钟

作者:张大鹏 | 大鹏AI教育

标签:AI 爬虫 Browser-Use Playwright Agent

image.png

阅读提示

2026 年浏览器采集有两条热门路线:

  1. Playwright / Puppeteer 脚本 — 选择器 + 确定性流程
  2. 视觉 Agent(如 Browser Use) — 截图 + 多模态模型「看屏幕点按钮」

Demo 里视觉 Agent 很炫:「帮我把这个网站所有商品加购」——模型真的在动鼠标。上线后常见问题也真实:点错坐标、把 Banner 当列表、成本翻倍、失败难复盘

这篇基于 2026 年工程实践,给出选型表 + 合规边界 + 人工复核清单,帮你决定什么时候上 Browser Use,什么时候老老实实写 Playwright。

合规声明:全文只讨论公开页、授权系统、测试环境。不教绕过登录、验证码、风控。


1. 两条路线的本质差异

维度Playwright 脚本Browser Use 等视觉 Agent
输入信号DOM / a11y 树 / locator截图 + 有时叠加 DOM
决策方式代码分支,确定性高LLM + 视觉,概率性
失败模式selector 失效,易定位误点、幻觉、循环
Token / 算力低(无每步 VLM)高(每步看图)
可审计性强(日志 + DOM)弱(需录屏补证)
改版耐受中(靠语义 locator)表面上「更智能」,仍可能误读布局

image.png 结论前置:生产采集默认 Playwright(或 Crawlee + Playwright) ;视觉 Agent 适合 探索、一次性、DOM 极难解析 的合规场景,且必须加人工复核闸门。


2. Browser Use 典型用法(探索分支)

Browser Use 把「浏览器控制」包成 Agent 工具,模型根据页面状态决定下一步。伪代码流程:

Task: 打开 https://example.com/blog ,收集前 10 篇文章标题和链接
Loop:
  - 截图 / 读 DOM 摘要
  - LLM 输出 action: click / scroll / extract / done
  - 执行 action
  - 直到 done 或 max_steps

Python 侧概念示例(API 以官方仓库为准):

from browser_use import Agent, Browser

browser = Browser()
agent = Agent(
    task="On the public blog listing, collect title and url for the first 10 posts. Stop if login is required.",
    browser=browser,
    max_steps=30,
)
result = await agent.run()

必须加的工程约束

  • max_steps 硬上限
  • Prompt 写明:遇登录 / 验证码立即停止
  • 输出 JSON Schema 校验
  • 全程录屏或逐步截图归档

3. 2026 选型表:什么任务用哪条路

image.png

场景推荐理由
公开列表 + 分页 / Load MorePlaywright + Crawlee确定性、可限速、易重试
内部后台(已授权)固定流程Playwright 脚本可审计、CI 可跑
DOM 极乱、一次性调研Browser Use 探索省写 selector 时间,但不直接入库
需要 a11y 语义 + MCP@playwright/mcptoken 省、与 Agent 工具链一致
Canvas / 重度视觉布局视觉 Agent 仅辅助必须人工确认抽取结果
高频、大规模、SLA 采集Playwright 脚本成本和稳定性占优
验证码 / 登录墙后面都不自动化合规停止,转人工或官方 API

决策一句话

稳定入库 → Playwright;要快速探路 → Browser Use;探路结果必须经脚本化或人工复核后再进生产。


4. 混合架构(推荐)

┌─────────────────┐
│  Browser Use    │  探索:录步骤、发现字段、验证能否公开访问
└────────┬────────┘
         │ 产出:步骤说明 + 样例 JSON + 风险点
         ▼
┌─────────────────┐
│ Playwright 脚本 │  生产:locator / a11y + Schema + 限速
└────────┬────────┘
         ▼
┌─────────────────┐
│ 人工抽检 5%     │  对照页面,拦截幻觉
└─────────────────┘

这样既不用「纯手写猜 selector」,也不会让 VLM 直接驱动生产队列。


5. 合规边界(视觉 Agent 尤其容易越线)

视觉 Agent 的 Prompt 若写「无论如何拿到数据」,模型更可能尝试危险操作(多次刷新、乱点 Cookie、试探登录框)。

硬性规则

规则说明
公开或授权无授权不采受限内容
遇验证即停验证码、滑块、短信码 — 不绕过
限速视觉 Agent 更耗资源,更不应高频
不留 PII不采用户隐私字段
可复盘录屏 / 逐步截图 + action log
人工闸门首批 N 条必须肉眼对照

禁止:用视觉 Agent 识别验证码、模拟真人过风控、批量注册账号。这类需求应直接拒绝或改用官方 API


6. 失败重试与人工复核清单

image.png 自动重试(仅 Playwright 生产链路)

  • 网络超时:最多 2 次,指数退避
  • selector 失败:保存 snapshot,无限重试
  • HTTP 429:停止任务,调低并发

人工复核(Browser Use 或新站上线必做)

  • 随机抽 20 条记录与页面对照
  • 标题 / URL 是否来自正文区而非导航 / 广告
  • 是否误触登录或 Cookie 墙
  • 是否出现模型编造字段
  • 录屏中是否有异常高频点击
  • robots.txt 与 Terms 是否允许
  • 失败样本是否已归档

7. 结论

2026 年不是「视觉 Agent 取代 Playwright」,而是分工

  • Browser Use:合规探索、原型验证、DOM 太烂时的短期方案
  • Playwright:生产管道、审计、限速、CI

把视觉 Agent 当「会看图的实习生」,Playwright 当「持证上岗的操作员」——上线前实习生写的步骤,操作员要改写成脚本并过抽检。


参考来源

  1. Browser Use
  2. Playwright Best Practices
  3. Playwright MCP

作者:张大鹏|来源:大鹏AI教育
标签:AI · 爬虫 · Browser-Use · Playwright
原创内容,转载需授权