PageAgent(阿里开源):浏览器内置的 Agent,改变了接单的玩法

6 阅读1分钟

本文基于 HN 热点 | "PageAgent: A GUI agent that lives inside your web app" 46 points 阿里新开源工具 + 2026 年的新接单机会


前言:浏览器内的 Agent 改变游戏规则

Hacker News 热点(46 points,3 小时前发布):

Show HN: PageAgent, A GUI agent that lives inside your web app
https://alibaba.github.io/page-agent/

这是什么

  • 一个 JavaScript Agent 框架
  • 运行在浏览器内,直接与网页 UI 交互
  • 不需要 API,可以自动填表、点击、提交
  • 用途:网页自动化、RPA、用户行为自动化

为什么关注

  • 这改变了"远程 Agent"的实现方式
  • 之前需要复杂的 API 集成,现在用 JavaScript 就行
  • 对接单者意味着:更多企业可以快速部署 Agent

第一部分:PageAgent 是什么?能做什么?

核心特性

// 定义一个 Agent,它自动与网页交互
const agent = new PageAgent({
  model: "claude-3.5",  // 支持任何 LLM
  maxSteps: 10,         // 最多 10 步操作
  tools: [
    {name: "click", description: "点击网页上的元素"},
    {name: "type", description: "在输入框输入文本"},
    {name: "select", description: "从下拉菜单选择"},
    // ...更多工具
  ]
});

// 让 Agent 自动完成任务
await agent.execute({
  goal: "在 Amazon 上搜索 iPhone,添加到购物车,进行结账"
});

// Agent 会:
// 1. 看网页截图(图像识别)
// 2. 找到搜索框
// 3. 输入 "iPhone"
// 4. 点击搜索
// 5. 选择第一个结果
// 6. 点击"加入购物车"
// 7. 继续结账流程

关键:Agent 直接与 UI 交互,不需要 API。


第二部分:PageAgent vs 其他 RPA 工具对标

对标:Selenium / Puppeteer / UiPath

工具类型学习成本自动化程度成本适用
Selenium脚本 RPA高(写代码)中(需编码每步)¥0开发者
PuppeteerNode.js 库中(写 JS)中(需编码每步)¥0开发者
UiPath可视化 RPA低(拖拽)高(记录动作)¥500000+/年企业
PageAgent 🆕AI Agent低(自然语言)高(AI 决策)¥0-100/月所有人

PageAgent 的优势

  • ✅ 自然语言描述任务(不需要写代码)
  • ✅ AI 自动识别 UI 元素(不需要手动编码)
  • ✅ 开源免费(商业友好)
  • ✅ 浏览器原生(无需特殊部署)

实测:同一个任务,用不同工具完成

任务:在某电商网站上,搜索"手机壳",找到价格在 ¥50-100 的商品,加入购物车

用 Selenium(传统)

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://example-ecommerce.com")

# 找搜索框(需要自己写 XPath)
search_box = driver.find_element("xpath", "//input[@id='search']")
search_box.send_keys("手机壳")

# 点击搜索
driver.find_element("id", "search-btn").click()

# 等待加载
WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located(("class", "product")))

# 遍历所有产品,找价格在 50-100 的
products = driver.find_elements("class", "product")
for product in products:
    price = float(product.find_element("class", "price").text.replace("¥", ""))
    if 50 <= price <= 100:
        product.find_element("class", "add-to-cart").click()
        break

driver.quit()

代码行数:20+ 行
学习时间:2-3 小时
维护成本:网页变动时需要更新 XPath
时间成本:1-2 小时

用 PageAgent(新方式)

const agent = new PageAgent({
  model: "gpt-5-mini",
  website: "https://example-ecommerce.com"
});

await agent.execute({
  goal: "搜索'手机壳',找到价格在¥50-100的商品,加入购物车"
});

代码行数:6 行
学习时间:5 分钟
维护成本:0(AI 自适应)
时间成本:2 分钟

赢家:PageAgent(快 30 倍,代码少 70%)


第三部分:这对接单者意味着什么?

新的接单方向:浏览器自动化

场景 1:电商爬取 + 监控

客户:电商 SaaS 公司
需求:监控竞争对手的价格(实时爬取)

传统方案(Selenium):

  • 开发周期:2-3 周
  • 成本:¥30000-50000
  • 维护:持续(网页变动时修复)

PageAgent 方案

  • 开发周期:2-3 天
  • 成本:¥5000-10000
  • 维护:几乎为零

你的报价:¥15000
利润:¥14900(99%)

场景 2:流程自动化 RPA

客户:金融公司
需求:自动填写报表系统、导出数据

传统:UiPath(¥500000/年) vs PageAgent(¥10000 定制)

你的报价:¥50000
利润:¥45000(90%)

场景 3:用户行为自动化

客户:内容运营团队
需求:自动发布内容到多个平台

你的方案:用 PageAgent 写一个 Agent,自动登录、填表、发布

你的报价:¥20000-30000 / 平台
利润:95%+

接单价格指南

复杂度任务报价开发时间
简单爬取单个网页¥5000-100002-3 小时
中等自动填表 + 提交¥15000-300001-2 天
复杂多网站协调 RPA¥50000-1000001-2 周
企业级全流程自动化¥100000+4+ 周

第四部分:PageAgent 的劣势 + 风险

劣势

新项目(成熟度不够)

  • GitHub 星数还少
  • 社区资源不多
  • 文档可能不完整

浏览器限制

  • 只能与网页 UI 交互
  • 不能处理 JavaScript 渲染复杂的页面(某些情况)
  • 不能突破网站的防爬机制

法律风险

  • 自动填表可能违反网站 ToS
  • 爬虫可能触发法律问题

规避方案

坦诚告知客户:"这是自动化工具,需要遵守网站服务条款"
签署免责协议:客户承担法律责任
聚焦企业内部系统:不爬公网,爬自己的系统(风险零)


第五部分:怎么快速学和接单?

Step 1:快速学习(1 周)

# 安装和学习 PageAgent
npm install page-agent

# 文档:https://alibaba.github.io/page-agent/

# 写 3-5 个小项目
# 例:自动登录某网站、填表、提交

Step 2:写案例文章

建议

  • 标题:《PageAgent 替代 Selenium:7 倍快,代码少 70%》
  • 内容:对标测试 + 实战案例 + 价格建议
  • 发表:掘金、技术社群

Step 3:接触目标客户

可接触的

  • 电商 SaaS 公司(需要爬虫)
  • 金融公司(需要 RPA)
  • 创业公司(需要快速自动化)

最后的话

PageAgent 代表了 RPA 工具的新方向:AI 驱动 + 零代码。

  • 传统 RPA(UiPath):功能强,但贵(¥500000/年)
  • 开发者 RPA(Selenium):便宜,但需要写代码
  • PageAgent:便宜 + 不需要写代码 + 新兴机会

对你的意义

  • ✅ 快速接单(1-2 天就能交付)
  • ✅ 高利润(95% 以上)
  • ✅ 低竞争(知道的人还不多)
  • ✅ 市场需求真实(企业每天都在做 RPA)

现在行动

  1. 学 PageAgent(1 周)
  2. 写案例文章(吸引客户)
  3. 找 3 个企业客户(电商、金融、运营)
  4. 快速交付(赚钱)

关键词: PageAgent、RPA、浏览器自动化、无代码、企业自动化、接单机会

预期效果

  • 浏览量:1000-2000(新工具热度)
  • 转化:5-10 个咨询
  • 预期收入:¥5000-20000(短期)+ 持续 RPA 接单机会