怎么让 AI 帮用户操作网页?
以前的做法都挺重的——要么在服务器上跑 Playwright、Selenium,配置 Headless Browser;要么装个 Chrome 插件,还得各种权限。
阿里最近开源了一个项目叫 page-agent,走了一条完全不同的路:把 AI Agent 直接塞进网页里。
一行 JavaScript 代码,完事。
它跟 Playwright 有什么区别?
Playwright 和 Selenium 是给服务器用的——你需要在后端启动一个无头浏览器,然后远程操控它。
page-agent 反过来:它直接在前端运行。
这带来几个不一样的地方:
【1】不需要服务器
传统方案需要一台服务器跑浏览器,page-agent 不需要。AI 直接在用户的浏览器里运行,你的服务器零负担。
【2】不依赖截图
大多数 Web Agent 用多模态模型(VLM)识别界面——截个图,让 AI 看图操作。page-agent 不走这条路,它直接读 DOM 结构。
什么意思?AI 读的是网页的"骨架",不是"皮相"。
好处是:响应快、带宽省、成本低。坏处是:Canvas、WebGL 这类纯视觉内容它看不懂。
【3】你选模型
它不绑定任何大模型。通义千问、GPT-4、DeepSeek——只要是 OpenAI 格式的接口,都能接。
它能做什么?不能做什么?
说清楚边界,免得踩坑。
能做的:
- 点击、输入、下拉选择
- 页面滚动
- 表单填充和提交
- 跨页面执行(需要配合浏览器扩展)
不能做的:
- 鼠标悬停、拖拽、右键菜单
- 键盘快捷键
- Canvas/WebGL 识别
- 绘图操作
一句话总结:语义化的网页,它玩得转;纯视觉的交互,它搞不定。
所以如果你的网页 HTML 写得够语义化,可访问性做得好,page-agent 就越聪明。反过来,全是 Canvas 画出来的界面,它就没辙了。
几个典型的用法
SaaS 产品的 AI Copilot
你的产品有复杂操作流程?不用重写后端,几行代码就能上线一个"AI 助手"。
用户说一句"帮我导出上个月的销售报表",Agent 自己点完所有按钮。
智能表单填充
ERP、CRM 里那些 20 步起步的表单,用户一句话就能填完。
无障碍辅助
视障用户、老年用户用语音指令操控网页,不用一个个找按钮了。
内网自动化
安全要求高的内网环境,装不了外部插件?这个方案不需要装任何东西。
怎么用?
两种方式。
方式一:NPM 安装
npm install page-agent
方式二:直接引用
import { PageAgent } from 'page-agent';
const agent = new PageAgent({
model: 'qwen-max',
apiKey: 'YOUR_API_KEY',
});
await agent.execute('帮我在搜索框填入"GitHub"并点击搜索');
就这么简单。
它适合谁?
如果你的产品是:
- Web 端的 SaaS
- 有复杂的表单或操作流程
- 想加 AI 能力但不想折腾后端架构
page-agent 值得一试。
如果你的场景是:
- 大规模爬虫抓取
- 需要操作 Canvas 游戏
- 必须用鼠标拖拽
那还是用 Playwright 吧,各有所长。
这个项目把"AI 操控网页"的门槛拉低了一大截。以前需要服务器、需要无头浏览器、需要配置一堆东西,现在就是一行代码的事。
可以去看看,顺手给个 Star。