一行代码，让 AI "住进"你的网页怎么让 AI 帮用户操作网页？以前的做法都挺重的——要么在服务器上跑 Playwr

怎么让 AI 帮用户操作网页？

以前的做法都挺重的——要么在服务器上跑 Playwright、Selenium，配置 Headless Browser；要么装个 Chrome 插件，还得各种权限。

阿里最近开源了一个项目叫 page-agent，走了一条完全不同的路：把 AI Agent 直接塞进网页里。

一行 JavaScript 代码，完事。

它跟 Playwright 有什么区别？

Playwright 和 Selenium 是给服务器用的——你需要在后端启动一个无头浏览器，然后远程操控它。

page-agent 反过来：它直接在前端运行。

这带来几个不一样的地方：

【1】不需要服务器

传统方案需要一台服务器跑浏览器，page-agent 不需要。AI 直接在用户的浏览器里运行，你的服务器零负担。

【2】不依赖截图

大多数 Web Agent 用多模态模型（VLM）识别界面——截个图，让 AI 看图操作。page-agent 不走这条路，它直接读 DOM 结构。

什么意思？AI 读的是网页的"骨架"，不是"皮相"。

好处是：响应快、带宽省、成本低。坏处是：Canvas、WebGL 这类纯视觉内容它看不懂。

【3】你选模型

它不绑定任何大模型。通义千问、GPT-4、DeepSeek——只要是 OpenAI 格式的接口，都能接。

它能做什么？不能做什么？

说清楚边界，免得踩坑。

能做的：

点击、输入、下拉选择
页面滚动
表单填充和提交
跨页面执行（需要配合浏览器扩展）

不能做的：

鼠标悬停、拖拽、右键菜单
键盘快捷键
Canvas/WebGL 识别
绘图操作

一句话总结：语义化的网页，它玩得转；纯视觉的交互，它搞不定。

所以如果你的网页 HTML 写得够语义化，可访问性做得好，page-agent 就越聪明。反过来，全是 Canvas 画出来的界面，它就没辙了。

几个典型的用法

SaaS 产品的 AI Copilot

你的产品有复杂操作流程？不用重写后端，几行代码就能上线一个"AI 助手"。

用户说一句"帮我导出上个月的销售报表"，Agent 自己点完所有按钮。

智能表单填充

ERP、CRM 里那些 20 步起步的表单，用户一句话就能填完。

无障碍辅助

视障用户、老年用户用语音指令操控网页，不用一个个找按钮了。

内网自动化

安全要求高的内网环境，装不了外部插件？这个方案不需要装任何东西。

怎么用？

两种方式。

方式一：NPM 安装

npm install page-agent

方式二：直接引用

import { PageAgent } from 'page-agent';

const agent = new PageAgent({
  model: 'qwen-max',
  apiKey: 'YOUR_API_KEY',
});

await agent.execute('帮我在搜索框填入"GitHub"并点击搜索');

就这么简单。

它适合谁？

如果你的产品是：

Web 端的 SaaS
有复杂的表单或操作流程
想加 AI 能力但不想折腾后端架构

page-agent 值得一试。

如果你的场景是：

大规模爬虫抓取
需要操作 Canvas 游戏
必须用鼠标拖拽

那还是用 Playwright 吧，各有所长。

这个项目把"AI 操控网页"的门槛拉低了一大截。以前需要服务器、需要无头浏览器、需要配置一堆东西，现在就是一行代码的事。

项目地址：github.com/alibaba/pag…

可以去看看，顺手给个 Star。