🔥 阿里刚开源的Page Agent:把浏览器变成听话的AI助手,一行代码就能集成!

0 阅读5分钟

你有没有想过,以后操作网页不用再点来点去?直接说一句"帮我填写这个表单"、"把购物车里价格低于100的商品全部下单"、"帮我导出这个月所有的报表",浏览器就能自动帮你完成?

最近阿里开源的 Page Agent 把这个想象变成了现实,而且实现方式简单到离谱,甚至不需要浏览器扩展、不需要Python、不需要无头浏览器,只需要在网页里加一行JavaScript代码就行。


🤔 这到底是个什么神仙工具?

Page Agent是一个运行在网页里的GUI智能代理,简单来说就是给你的网页装了个"AI大脑",用户可以用自然语言直接控制网页上的所有操作。

最牛的是它的设计思路:

  • ❌ 不需要截图!不需要多模态大模型!
  • ❌ 不需要特殊权限!不需要浏览器扩展!
  • ❌ 不需要后端改造!纯前端就能集成!
  • ✅ 所有操作都在当前页面完成,数据完全可控!

它的原理也很巧妙:把页面的DOM结构转换成文本格式,交给大模型分析应该操作什么元素,然后直接在页面执行对应的操作,全程没有图像识别的开销,速度快到飞起。


💪 这东西能干什么?我给你举几个例子:

1️⃣ 给你的SaaS产品加个AI Copilot

做企业服务的同学都懂,现在客户动不动就要求"你们产品有没有AI功能?"。以前要做个AI助手,得搞后端接口、做大模型对接、做用户引导,没个几周一两个月根本做不完。

现在用Page Agent,几行代码就能搞定:

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'qwen3.5-plus',
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: 'YOUR_API_KEY',
})

// 用户说一句"帮我创建一个下个月的营销活动"
await agent.execute('帮我创建一个下个月的营销活动,预算5万,目标人群是一线城市的20-30岁女性')

自动找表单、填内容、点提交,整个流程一气呵成,用户连鼠标都不用碰。

2️⃣ 复杂系统直接"说人话"操作

做过ERP、CRM、后台管理系统的同学都知道,有些操作路径深到离谱:要点开菜单、找二级菜单、进入列表页、点新增、填十几个字段、选各种下拉框、最后还要点三次确认。

有了Page Agent,直接说"帮我录入一个新的员工信息,张三,产品部,入职日期3月10号,职级P6",系统自动帮你完成所有操作,新员工半天才能搞明白的系统,现在保洁阿姨都能用。

3️⃣ 无障碍访问的终极解决方案

很多残障人士用电脑是很困难的,尤其是复杂的后台系统。现在有了Page Agent,直接语音控制:"帮我看看今天有哪些待审批的申请"、"同意这个1000元的报销申请",所有操作都可以通过自然语言完成,真正实现零障碍。

4️⃣ 跨页面自动化工作流

如果安装可选的Chrome扩展,Page Agent还能实现跨页面操作:

"帮我打开飞书文档,把刚才那张Excel里的用户数据导入,然后生成一个可视化报表,发到产品部群里"

自动切标签页、复制数据、生成报表、发送消息,一整套复杂的工作流一句话就搞定。


🚀 上手有多快?真的是一行代码

最快的体验方式,直接在你的网页里加这一行:

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.6/dist/iife/page-agent.demo.js" crossorigin="true"></script>

刷新页面你就会看到右下角出现了Page Agent的图标,直接跟它说你要做什么就行,连API Key都不用申请,用阿里提供的免费测试接口就能体验。

生产环境用NPM安装更灵活:

npm install page-agent

支持自定义大模型,不管是通义千问、GPT、Claude还是其他兼容OpenAI接口的模型都能对接,完全不绑定厂商。


🎯 这玩意儿到底革了谁的命?

以前要做网页自动化,要么用Selenium、Playwright这种重得要死的测试框架,要么用浏览器扩展还要搞权限申请,普通开发者根本玩不转。

现在Page Agent把门槛降到了几乎为零:

  • 前端开发者:半天就能给你的产品加上AI助手功能
  • 产品经理:不用再跟研发扯半年需求,自己做个Demo就能给老板演示
  • 运营同学:复杂的后台操作一句话搞定,再也不用记那些复杂的流程
  • 企业IT:给老系统加个AI壳子,瞬间完成"数字化升级"

而且它是完全开源的MIT协议,不管是个人用还是商业用都免费,没有任何限制。


🔗 相关资源

目前这个项目刚开源没多久,已经在GitHub上收获了大量Star,生态还在快速完善中。可以预见,未来几乎所有的Web产品都会加上这样的自然语言交互能力,而Page Agent很可能就是那个行业标准级的解决方案。

👉 赶紧去试试,说不定你的下一个产品就能用上这个黑科技!

#PageAgent #AI #前端开发 #开源 #阿里巴巴 #自动化 #AIAgent