视觉 Agent 爬取 vs Playwright 脚本：Browser Use 2026 选型表阅读提示 2026 年

作者：张大鹏 | 大鹏AI教育

标签：AI 爬虫 Browser-Use Playwright Agent

阅读提示

2026 年浏览器采集有两条热门路线：

Playwright / Puppeteer 脚本 — 选择器 + 确定性流程
视觉 Agent（如 Browser Use） — 截图 + 多模态模型「看屏幕点按钮」

Demo 里视觉 Agent 很炫：「帮我把这个网站所有商品加购」——模型真的在动鼠标。上线后常见问题也真实：点错坐标、把 Banner 当列表、成本翻倍、失败难复盘。

这篇基于 2026 年工程实践，给出选型表 + 合规边界 + 人工复核清单，帮你决定什么时候上 Browser Use，什么时候老老实实写 Playwright。

合规声明：全文只讨论公开页、授权系统、测试环境。不教绕过登录、验证码、风控。

1. 两条路线的本质差异

维度	Playwright 脚本	Browser Use 等视觉 Agent
输入信号	DOM / a11y 树 / locator	截图 + 有时叠加 DOM
决策方式	代码分支，确定性高	LLM + 视觉，概率性
失败模式	selector 失效，易定位	误点、幻觉、循环
Token / 算力	低（无每步 VLM）	高（每步看图）
可审计性	强（日志 + DOM）	弱（需录屏补证）
改版耐受	中（靠语义 locator）	表面上「更智能」，仍可能误读布局

结论前置：生产采集默认 Playwright（或 Crawlee + Playwright） ；视觉 Agent 适合 探索、一次性、DOM 极难解析 的合规场景，且必须加人工复核闸门。

2. Browser Use 典型用法（探索分支）

Browser Use 把「浏览器控制」包成 Agent 工具，模型根据页面状态决定下一步。伪代码流程：

Task: 打开 https://example.com/blog ，收集前 10 篇文章标题和链接
Loop:
  - 截图 / 读 DOM 摘要
  - LLM 输出 action: click / scroll / extract / done
  - 执行 action
  - 直到 done 或 max_steps

Python 侧概念示例（API 以官方仓库为准）：

from browser_use import Agent, Browser

browser = Browser()
agent = Agent(
    task="On the public blog listing, collect title and url for the first 10 posts. Stop if login is required.",
    browser=browser,
    max_steps=30,
)
result = await agent.run()

必须加的工程约束：

max_steps 硬上限
Prompt 写明：遇登录 / 验证码立即停止
输出 JSON Schema 校验
全程录屏或逐步截图归档

3. 2026 选型表：什么任务用哪条路

场景	推荐	理由
公开列表 + 分页 / Load More	Playwright + Crawlee	确定性、可限速、易重试
内部后台（已授权）固定流程	Playwright 脚本	可审计、CI 可跑
DOM 极乱、一次性调研	Browser Use 探索	省写 selector 时间，但不直接入库
需要 a11y 语义 + MCP	@playwright/mcp	token 省、与 Agent 工具链一致
Canvas / 重度视觉布局	视觉 Agent 仅辅助	必须人工确认抽取结果
高频、大规模、SLA 采集	Playwright 脚本	成本和稳定性占优
验证码 / 登录墙后面	都不自动化	合规停止，转人工或官方 API

决策一句话：

要稳定入库 → Playwright；要快速探路 → Browser Use；探路结果必须经脚本化或人工复核后再进生产。

4. 混合架构（推荐）

┌─────────────────┐
│  Browser Use    │  探索：录步骤、发现字段、验证能否公开访问
└────────┬────────┘
         │ 产出：步骤说明 + 样例 JSON + 风险点
         ▼
┌─────────────────┐
│ Playwright 脚本 │  生产：locator / a11y + Schema + 限速
└────────┬────────┘
         ▼
┌─────────────────┐
│ 人工抽检 5%     │  对照页面，拦截幻觉
└─────────────────┘

这样既不用「纯手写猜 selector」，也不会让 VLM 直接驱动生产队列。

5. 合规边界（视觉 Agent 尤其容易越线）

视觉 Agent 的 Prompt 若写「无论如何拿到数据」，模型更可能尝试危险操作（多次刷新、乱点 Cookie、试探登录框）。

硬性规则：

规则	说明
公开或授权	无授权不采受限内容
遇验证即停	验证码、滑块、短信码 — 不绕过
限速	视觉 Agent 更耗资源，更不应高频
不留 PII	不采用户隐私字段
可复盘	录屏 / 逐步截图 + action log
人工闸门	首批 N 条必须肉眼对照

禁止：用视觉 Agent 识别验证码、模拟真人过风控、批量注册账号。这类需求应直接拒绝或改用官方 API。

6. 失败重试与人工复核清单

自动重试（仅 Playwright 生产链路） ：

网络超时：最多 2 次，指数退避
selector 失败：保存 snapshot，不无限重试
HTTP 429：停止任务，调低并发

人工复核（Browser Use 或新站上线必做） ：

随机抽 20 条记录与页面对照
标题 / URL 是否来自正文区而非导航 / 广告
是否误触登录或 Cookie 墙
是否出现模型编造字段
录屏中是否有异常高频点击
robots.txt 与 Terms 是否允许
失败样本是否已归档

7. 结论

2026 年不是「视觉 Agent 取代 Playwright」，而是分工：

Browser Use：合规探索、原型验证、DOM 太烂时的短期方案
Playwright：生产管道、审计、限速、CI

把视觉 Agent 当「会看图的实习生」，Playwright 当「持证上岗的操作员」——上线前实习生写的步骤，操作员要改写成脚本并过抽检。

参考来源

作者：张大鹏｜来源：大鹏AI教育
标签：AI · 爬虫 · Browser-Use · Playwright
原创内容，转载需授权