一行代码,让 AI "住进"你的网页

0 阅读3分钟

怎么让 AI 帮用户操作网页?

以前的做法都挺重的——要么在服务器上跑 Playwright、Selenium,配置 Headless Browser;要么装个 Chrome 插件,还得各种权限。

阿里最近开源了一个项目叫 page-agent,走了一条完全不同的路:把 AI Agent 直接塞进网页里

一行 JavaScript 代码,完事。

Gemini_Generated_Image_wq0xpwwq0xpwwq0x.png


它跟 Playwright 有什么区别?

Playwright 和 Selenium 是给服务器用的——你需要在后端启动一个无头浏览器,然后远程操控它。

page-agent 反过来:它直接在前端运行。

这带来几个不一样的地方:

【1】不需要服务器

传统方案需要一台服务器跑浏览器,page-agent 不需要。AI 直接在用户的浏览器里运行,你的服务器零负担。

【2】不依赖截图

大多数 Web Agent 用多模态模型(VLM)识别界面——截个图,让 AI 看图操作。page-agent 不走这条路,它直接读 DOM 结构。

什么意思?AI 读的是网页的"骨架",不是"皮相"。

好处是:响应快、带宽省、成本低。坏处是:Canvas、WebGL 这类纯视觉内容它看不懂。

【3】你选模型

它不绑定任何大模型。通义千问、GPT-4、DeepSeek——只要是 OpenAI 格式的接口,都能接。


它能做什么?不能做什么?

说清楚边界,免得踩坑。

能做的

  • 点击、输入、下拉选择
  • 页面滚动
  • 表单填充和提交
  • 跨页面执行(需要配合浏览器扩展)

不能做的

  • 鼠标悬停、拖拽、右键菜单
  • 键盘快捷键
  • Canvas/WebGL 识别
  • 绘图操作

一句话总结:语义化的网页,它玩得转;纯视觉的交互,它搞不定。

所以如果你的网页 HTML 写得够语义化,可访问性做得好,page-agent 就越聪明。反过来,全是 Canvas 画出来的界面,它就没辙了。


几个典型的用法

SaaS 产品的 AI Copilot

你的产品有复杂操作流程?不用重写后端,几行代码就能上线一个"AI 助手"。

用户说一句"帮我导出上个月的销售报表",Agent 自己点完所有按钮。

智能表单填充

ERP、CRM 里那些 20 步起步的表单,用户一句话就能填完。

无障碍辅助

视障用户、老年用户用语音指令操控网页,不用一个个找按钮了。

内网自动化

安全要求高的内网环境,装不了外部插件?这个方案不需要装任何东西。


怎么用?

两种方式。

方式一:NPM 安装

npm install page-agent

方式二:直接引用

import { PageAgent } from 'page-agent';

const agent = new PageAgent({
  model: 'qwen-max',
  apiKey: 'YOUR_API_KEY',
});

await agent.execute('帮我在搜索框填入"GitHub"并点击搜索');

就这么简单。


它适合谁?

如果你的产品是:

  • Web 端的 SaaS
  • 有复杂的表单或操作流程
  • 想加 AI 能力但不想折腾后端架构

page-agent 值得一试。

如果你的场景是:

  • 大规模爬虫抓取
  • 需要操作 Canvas 游戏
  • 必须用鼠标拖拽

那还是用 Playwright 吧,各有所长。


这个项目把"AI 操控网页"的门槛拉低了一大截。以前需要服务器、需要无头浏览器、需要配置一堆东西,现在就是一行代码的事。

项目地址:github.com/alibaba/pag…

可以去看看,顺手给个 Star。