本文基于 HN 热点 | "PageAgent: A GUI agent that lives inside your web app" 46 points 阿里新开源工具 + 2026 年的新接单机会
前言:浏览器内的 Agent 改变游戏规则
Hacker News 热点(46 points,3 小时前发布):
Show HN: PageAgent, A GUI agent that lives inside your web app
https://alibaba.github.io/page-agent/
这是什么:
- 一个 JavaScript Agent 框架
- 运行在浏览器内,直接与网页 UI 交互
- 不需要 API,可以自动填表、点击、提交
- 用途:网页自动化、RPA、用户行为自动化
为什么关注:
- 这改变了"远程 Agent"的实现方式
- 之前需要复杂的 API 集成,现在用 JavaScript 就行
- 对接单者意味着:更多企业可以快速部署 Agent
第一部分:PageAgent 是什么?能做什么?
核心特性
// 定义一个 Agent,它自动与网页交互
const agent = new PageAgent({
model: "claude-3.5", // 支持任何 LLM
maxSteps: 10, // 最多 10 步操作
tools: [
{name: "click", description: "点击网页上的元素"},
{name: "type", description: "在输入框输入文本"},
{name: "select", description: "从下拉菜单选择"},
// ...更多工具
]
});
// 让 Agent 自动完成任务
await agent.execute({
goal: "在 Amazon 上搜索 iPhone,添加到购物车,进行结账"
});
// Agent 会:
// 1. 看网页截图(图像识别)
// 2. 找到搜索框
// 3. 输入 "iPhone"
// 4. 点击搜索
// 5. 选择第一个结果
// 6. 点击"加入购物车"
// 7. 继续结账流程
关键:Agent 直接与 UI 交互,不需要 API。
第二部分:PageAgent vs 其他 RPA 工具对标
对标:Selenium / Puppeteer / UiPath
| 工具 | 类型 | 学习成本 | 自动化程度 | 成本 | 适用 |
|---|---|---|---|---|---|
| Selenium | 脚本 RPA | 高(写代码) | 中(需编码每步) | ¥0 | 开发者 |
| Puppeteer | Node.js 库 | 中(写 JS) | 中(需编码每步) | ¥0 | 开发者 |
| UiPath | 可视化 RPA | 低(拖拽) | 高(记录动作) | ¥500000+/年 | 企业 |
| PageAgent 🆕 | AI Agent | 低(自然语言) | 高(AI 决策) | ¥0-100/月 | 所有人 |
PageAgent 的优势:
- ✅ 自然语言描述任务(不需要写代码)
- ✅ AI 自动识别 UI 元素(不需要手动编码)
- ✅ 开源免费(商业友好)
- ✅ 浏览器原生(无需特殊部署)
实测:同一个任务,用不同工具完成
任务:在某电商网站上,搜索"手机壳",找到价格在 ¥50-100 的商品,加入购物车
用 Selenium(传统)
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://example-ecommerce.com")
# 找搜索框(需要自己写 XPath)
search_box = driver.find_element("xpath", "//input[@id='search']")
search_box.send_keys("手机壳")
# 点击搜索
driver.find_element("id", "search-btn").click()
# 等待加载
WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located(("class", "product")))
# 遍历所有产品,找价格在 50-100 的
products = driver.find_elements("class", "product")
for product in products:
price = float(product.find_element("class", "price").text.replace("¥", ""))
if 50 <= price <= 100:
product.find_element("class", "add-to-cart").click()
break
driver.quit()
代码行数:20+ 行
学习时间:2-3 小时
维护成本:网页变动时需要更新 XPath
时间成本:1-2 小时
用 PageAgent(新方式)
const agent = new PageAgent({
model: "gpt-5-mini",
website: "https://example-ecommerce.com"
});
await agent.execute({
goal: "搜索'手机壳',找到价格在¥50-100的商品,加入购物车"
});
代码行数:6 行
学习时间:5 分钟
维护成本:0(AI 自适应)
时间成本:2 分钟
赢家:PageAgent(快 30 倍,代码少 70%)
第三部分:这对接单者意味着什么?
新的接单方向:浏览器自动化
场景 1:电商爬取 + 监控
客户:电商 SaaS 公司
需求:监控竞争对手的价格(实时爬取)
传统方案(Selenium):
- 开发周期:2-3 周
- 成本:¥30000-50000
- 维护:持续(网页变动时修复)
PageAgent 方案:
- 开发周期:2-3 天
- 成本:¥5000-10000
- 维护:几乎为零
你的报价:¥15000
利润:¥14900(99%)
场景 2:流程自动化 RPA
客户:金融公司
需求:自动填写报表系统、导出数据
传统:UiPath(¥500000/年) vs PageAgent(¥10000 定制)
你的报价:¥50000
利润:¥45000(90%)
场景 3:用户行为自动化
客户:内容运营团队
需求:自动发布内容到多个平台
你的方案:用 PageAgent 写一个 Agent,自动登录、填表、发布
你的报价:¥20000-30000 / 平台
利润:95%+
接单价格指南
| 复杂度 | 任务 | 报价 | 开发时间 |
|---|---|---|---|
| 简单 | 爬取单个网页 | ¥5000-10000 | 2-3 小时 |
| 中等 | 自动填表 + 提交 | ¥15000-30000 | 1-2 天 |
| 复杂 | 多网站协调 RPA | ¥50000-100000 | 1-2 周 |
| 企业级 | 全流程自动化 | ¥100000+ | 4+ 周 |
第四部分:PageAgent 的劣势 + 风险
劣势
❌ 新项目(成熟度不够)
- GitHub 星数还少
- 社区资源不多
- 文档可能不完整
❌ 浏览器限制
- 只能与网页 UI 交互
- 不能处理 JavaScript 渲染复杂的页面(某些情况)
- 不能突破网站的防爬机制
❌ 法律风险
- 自动填表可能违反网站 ToS
- 爬虫可能触发法律问题
规避方案
✅ 坦诚告知客户:"这是自动化工具,需要遵守网站服务条款"
✅ 签署免责协议:客户承担法律责任
✅ 聚焦企业内部系统:不爬公网,爬自己的系统(风险零)
第五部分:怎么快速学和接单?
Step 1:快速学习(1 周)
# 安装和学习 PageAgent
npm install page-agent
# 文档:https://alibaba.github.io/page-agent/
# 写 3-5 个小项目
# 例:自动登录某网站、填表、提交
Step 2:写案例文章
建议:
- 标题:《PageAgent 替代 Selenium:7 倍快,代码少 70%》
- 内容:对标测试 + 实战案例 + 价格建议
- 发表:掘金、技术社群
Step 3:接触目标客户
可接触的:
- 电商 SaaS 公司(需要爬虫)
- 金融公司(需要 RPA)
- 创业公司(需要快速自动化)
最后的话
PageAgent 代表了 RPA 工具的新方向:AI 驱动 + 零代码。
- 传统 RPA(UiPath):功能强,但贵(¥500000/年)
- 开发者 RPA(Selenium):便宜,但需要写代码
- PageAgent:便宜 + 不需要写代码 + 新兴机会
对你的意义:
- ✅ 快速接单(1-2 天就能交付)
- ✅ 高利润(95% 以上)
- ✅ 低竞争(知道的人还不多)
- ✅ 市场需求真实(企业每天都在做 RPA)
现在行动:
- 学 PageAgent(1 周)
- 写案例文章(吸引客户)
- 找 3 个企业客户(电商、金融、运营)
- 快速交付(赚钱)
关键词: PageAgent、RPA、浏览器自动化、无代码、企业自动化、接单机会
预期效果:
- 浏览量:1000-2000(新工具热度)
- 转化:5-10 个咨询
- 预期收入:¥5000-20000(短期)+ 持续 RPA 接单机会