你有没有想过,以后操作网页不用再点来点去?直接说一句"帮我填写这个表单"、"把购物车里价格低于100的商品全部下单"、"帮我导出这个月所有的报表",浏览器就能自动帮你完成?
最近阿里开源的 Page Agent 把这个想象变成了现实,而且实现方式简单到离谱,甚至不需要浏览器扩展、不需要Python、不需要无头浏览器,只需要在网页里加一行JavaScript代码就行。
🤔 这到底是个什么神仙工具?
Page Agent是一个运行在网页里的GUI智能代理,简单来说就是给你的网页装了个"AI大脑",用户可以用自然语言直接控制网页上的所有操作。
最牛的是它的设计思路:
- ❌ 不需要截图!不需要多模态大模型!
- ❌ 不需要特殊权限!不需要浏览器扩展!
- ❌ 不需要后端改造!纯前端就能集成!
- ✅ 所有操作都在当前页面完成,数据完全可控!
它的原理也很巧妙:把页面的DOM结构转换成文本格式,交给大模型分析应该操作什么元素,然后直接在页面执行对应的操作,全程没有图像识别的开销,速度快到飞起。
💪 这东西能干什么?我给你举几个例子:
1️⃣ 给你的SaaS产品加个AI Copilot
做企业服务的同学都懂,现在客户动不动就要求"你们产品有没有AI功能?"。以前要做个AI助手,得搞后端接口、做大模型对接、做用户引导,没个几周一两个月根本做不完。
现在用Page Agent,几行代码就能搞定:
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
})
// 用户说一句"帮我创建一个下个月的营销活动"
await agent.execute('帮我创建一个下个月的营销活动,预算5万,目标人群是一线城市的20-30岁女性')
自动找表单、填内容、点提交,整个流程一气呵成,用户连鼠标都不用碰。
2️⃣ 复杂系统直接"说人话"操作
做过ERP、CRM、后台管理系统的同学都知道,有些操作路径深到离谱:要点开菜单、找二级菜单、进入列表页、点新增、填十几个字段、选各种下拉框、最后还要点三次确认。
有了Page Agent,直接说"帮我录入一个新的员工信息,张三,产品部,入职日期3月10号,职级P6",系统自动帮你完成所有操作,新员工半天才能搞明白的系统,现在保洁阿姨都能用。
3️⃣ 无障碍访问的终极解决方案
很多残障人士用电脑是很困难的,尤其是复杂的后台系统。现在有了Page Agent,直接语音控制:"帮我看看今天有哪些待审批的申请"、"同意这个1000元的报销申请",所有操作都可以通过自然语言完成,真正实现零障碍。
4️⃣ 跨页面自动化工作流
如果安装可选的Chrome扩展,Page Agent还能实现跨页面操作:
"帮我打开飞书文档,把刚才那张Excel里的用户数据导入,然后生成一个可视化报表,发到产品部群里"
自动切标签页、复制数据、生成报表、发送消息,一整套复杂的工作流一句话就搞定。
🚀 上手有多快?真的是一行代码
最快的体验方式,直接在你的网页里加这一行:
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.6/dist/iife/page-agent.demo.js" crossorigin="true"></script>
刷新页面你就会看到右下角出现了Page Agent的图标,直接跟它说你要做什么就行,连API Key都不用申请,用阿里提供的免费测试接口就能体验。
生产环境用NPM安装更灵活:
npm install page-agent
支持自定义大模型,不管是通义千问、GPT、Claude还是其他兼容OpenAI接口的模型都能对接,完全不绑定厂商。
🎯 这玩意儿到底革了谁的命?
以前要做网页自动化,要么用Selenium、Playwright这种重得要死的测试框架,要么用浏览器扩展还要搞权限申请,普通开发者根本玩不转。
现在Page Agent把门槛降到了几乎为零:
- 前端开发者:半天就能给你的产品加上AI助手功能
- 产品经理:不用再跟研发扯半年需求,自己做个Demo就能给老板演示
- 运营同学:复杂的后台操作一句话搞定,再也不用记那些复杂的流程
- 企业IT:给老系统加个AI壳子,瞬间完成"数字化升级"
而且它是完全开源的MIT协议,不管是个人用还是商业用都免费,没有任何限制。
🔗 相关资源
- 📦 开源地址:github.com/alibaba/pag…
- 🚀 在线Demo:alibaba.github.io/page-agent/
- 📖 官方文档:alibaba.github.io/page-agent/…
目前这个项目刚开源没多久,已经在GitHub上收获了大量Star,生态还在快速完善中。可以预见,未来几乎所有的Web产品都会加上这样的自然语言交互能力,而Page Agent很可能就是那个行业标准级的解决方案。
👉 赶紧去试试,说不定你的下一个产品就能用上这个黑科技!
#PageAgent #AI #前端开发 #开源 #阿里巴巴 #自动化 #AIAgent