阿里开源:17.8K+自动化网页操作助手

0 阅读8分钟

你正在用一个复杂的企业后台系统,要完成一个报销流程需要点击十几个按钮、填写五六个表单。你对屏幕说"帮我提交一份差旅报销",然后 AI 真的开始自动点击、填写、提交,几秒钟就搞定了。

Page Agent 是阿里巴巴开源的一款纯前端 GUI Agent(图形界面智能体)。它的核心定位很简单:让 AI 住进网页里,用自然语言操控一切

Github:

github.com/alibaba/pag…

一句话说清楚:Page Agent 是什么?

Page Agent 相当于网页里的"AI 操作员"

它不需要浏览器扩展、不需要 Python 后端、不需要无头浏览器。只需要一行 <script> 标签嵌入你的网页,用户就能用大白话指挥 AI 操作页面——点击按钮、填写表单、提取数据,样样都行。

简单说,它就像给你的网页装了一个"智能外挂",让任何网页都能听懂人话。


为什么需要 Page Agent?

传统的网页自动化工具(比如 Selenium、Playwright)有个共同特点:它们都是"外部控制"

你想自动化一个网页,得搭建后端服务、安装 Python 环境、启动无头浏览器、写一堆配置代码。而 Page Agent 的思路完全不同——它直接住在网页里

作为网页的一部分,它不需要后端(纯前端 JavaScript 实现)、不需要用户装插件(可选扩展仅用于跨标签页)、不需要截图识别(直接操作 DOM),5 分钟就能集成到现有项目。


核心优势:为什么它能脱颖而出?

纯前端架构,零基建快速接入

Page Agent 最突出的优势是"无门槛集成"。开发者只需通过一行 CDN 脚本或 NPM 安装,就能快速将其嵌入网页。对于前端开发者而言,半天就能给产品加上 AI 助手功能;产品经理可自行制作 Demo 演示需求;运营同学能通过一句话完成复杂后台操作。相比传统工具"安装依赖→配置环境→启动服务"的复杂流程,Page Agent 的接入门槛几乎为零。

无需截图识别,精准高效更省钱

不同于依赖多模态模型、通过截图+OCR 识别页面的工具,Page Agent 直接读取和操作页面 DOM 结构,将 DOM 转化为结构化文本后提交给大模型。这种方式带来三大好处:速度更快(无需处理图像数据)、成本更低(无需昂贵的多模态模型)、准确性更高(基于 DOM 结构不受样式影响)。

自然语言交互,人人都能操控网页

用户无需编写任何代码、无需熟悉页面 DOM 结构,只需用大白话下达指令,就能让 AI 完成各类页面操作。无论是"点击登录按钮并填写账号密码""提取页面所有商品的名称和价格",还是"提交一份旅行报销单",Page Agent 都能精准理解意图。更贴心的是,它支持"人机协同"设计,执行操作前会展示规划步骤,遇到歧义时会主动询问用户。

灵活兼容,隐私安全有保障

Page Agent 采用"BYO LLM"(自带大模型)架构,支持接入所有兼容 OpenAI API 格式的模型,包括 OpenAI、Claude、通义千问、豆包、DeepSeek 等,也可对接本地 Ollama 模型实现离线运行。


工作原理:DOM 驱动的智能操作

Page Agent 的工作流程可以简化为四个步骤。 DOM 提取:实时扫描页面,将复杂的 DOM 树转化为结构化的文本表示,提取元素的标签、属性、文本内容、位置信息等。 文本化处理:将 DOM 树"脱水"成简化文本,只保留对操作有意义的信息,比如一个按钮会被描述为"[3] 提交按钮 (type=submit)",其中 3 是元素索引。 LLM 决策:将简化后的 DOM 文本 + 用户指令一起发送给大模型,大模型分析当前状态,决定下一步操作(如"点击索引为 3 的元素")。 执行操作:Page Agent 根据 LLM 返回的指令,调用 PageController 执行具体的 DOM 操作(点击、输入、滚动等),然后循环回到第一步。

用户输入指令
    ↓
提取页面 DOM → 转化为简化文本
    ↓
发送给 LLM 分析 → 获取下一步动作
    ↓
执行操作(点击/输入/滚动)
    ↓
判断是否完成任务?
     - 否 → 继续循环
     - 是 → 结束

快速上手:5 分钟跑起来

方式一:一行代码集成(最简单)

fastest 方式是用阿里提供的免费 Demo LLM:

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.8.1/dist/iife/page-agent.demo.js" crossorigin="true"></script>

⚠️ 注意:这个 Demo CDN 仅用于技术评估,使用阿里免费的测试 LLM API。

国内用户可以用 npm 镜像:

<script src="https://registry.npmmirror.com/page-agent/1.8.1/files/dist/iife/page-agent.demo.js" crossorigin="true"></script>

方式二:NPM 安装(推荐)

npm install page-agent
import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen3.5-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: 'YOUR_API_KEY',
    language: 'zh-CN',
})

await agent.execute('点击登录按钮')

核心功能详解

智能表单填写:Page Agent 能自动识别表单元素,根据自然语言指令完成填写。比如你说"填写用户名 admin,密码 123456",它会自动找到对应的输入框并填入内容。

数据提取:你可以让 Page Agent 从页面提取结构化数据。比如"提取这个表格里的所有商品名称和价格",它会遍历表格 DOM,返回整理好的数据。

复杂流程自动化:对于需要多步骤操作的流程(如"搜索商品→选择分类→加入购物车→结算"),Page Agent 能自动规划操作序列并执行。

人机协同(Human-in-the-Loop):执行关键操作前,Page Agent 会展示规划步骤让用户确认。遇到歧义(如页面上有多个"提交"按钮)时,会主动询问用户选择哪一个。

浏览器扩展(可选):如果需要跨标签页操作(比如"在 A 页面复制数据,粘贴到 B 页面"),可以安装 Page Agent 的 Chrome 扩展。

MCP Server(Beta):允许外部 Agent 客户端控制你的浏览器,实现更复杂的自动化场景。


实际应用场景

SaaS 产品 AI Copilot:在 ERP、CRM、后台管理系统中集成 Page Agent,让用户用自然语言完成复杂操作。比如"帮我导出上个月的销售报表""把状态为待审核的订单全部通过"。

智能表单填写:将 20 次点击的复杂流程变成一句话。特别适合审批系统、报销系统、数据录入等场景。

无障碍辅助:让视障用户通过语音命令操作网页,或者让老年人用大白话完成网上办事。

自动化测试:用自然语言描述测试用例,Page Agent 自动执行并验证结果。比如"测试登录功能,尝试错误密码三次,验证是否出现锁定提示"。

数据采集:从网页批量提取信息,比如"抓取这个列表页前 50 条数据的标题和链接"。


与同类项目的区别

项目架构特点适用场景
Page Agent纯前端无需后端、DOM 驱动、轻量级网页增强、SaaS Copilot
UI-TARS Desktop桌面应用视觉驱动、跨应用操作桌面自动化
Browser-usePython 后端功能丰富、需要后端复杂自动化流程
Playwright测试框架专业测试、学习曲线陡自动化测试

Page Agent 的独特优势在于:纯前端、零基建、即插即用


适合谁用?

适合这些人:想给产品快速添加 AI 助手功能的前端开发者、需要简化复杂后台操作的产品经理/运营、做无障碍辅助工具的开发团队、想降低用户使用门槛的 SaaS 厂商。

不适合这些人:需要跨应用操作(不只是网页)的场景、对数据安全有极高要求(DOM 信息会发送给 LLM)、页面结构极其复杂或频繁变动的网站。


安全与隐私提醒

风险包括 DOM 信息需要发送给 LLM 可能泄露页面敏感数据、AI 可能误操作(比如在生产环境误删数据)、如果 LLM API 密钥泄露可能被恶意利用。

建议是不要在包含敏感数据的页面使用、关键操作前开启人机确认、使用本地模型(如 Ollama)避免数据上传云端、给 AI 设置操作白名单限制可执行的操作类型。

Github:

github.com/alibaba/pag…

写在最后

Page Agent 代表了一个重要趋势:AI 正在从"独立应用"变成"网页的一部分"

以前的 AI 工具都是独立的聊天窗口,现在它可以直接嵌入网页,成为用户操作界面的自然延伸。这就像是给每个网页都配了一个"智能助手",随时待命、随叫随到。

但是复杂页面的理解准确率、长流程的稳定性、安全性保障,都还有提升空间。但方向是明确的——未来的网页会越来越"听得懂人话"。


关注

如果这篇文章对你有帮助,欢迎点赞、在看、转发三连。我们会持续分享更多 AI 工具和实战经验的解读。