阿里开源：17.8K+自动化网页操作助手Page Agent 是阿里巴巴开源的纯前端 GUI Agent，只需一行代码嵌

你正在用一个复杂的企业后台系统，要完成一个报销流程需要点击十几个按钮、填写五六个表单。你对屏幕说"帮我提交一份差旅报销"，然后 AI 真的开始自动点击、填写、提交，几秒钟就搞定了。

Page Agent 是阿里巴巴开源的一款纯前端 GUI Agent（图形界面智能体）。它的核心定位很简单：让 AI 住进网页里，用自然语言操控一切。

Github：

github.com/alibaba/pag…

一句话说清楚：Page Agent 是什么？

Page Agent 相当于网页里的"AI 操作员"。

它不需要浏览器扩展、不需要 Python 后端、不需要无头浏览器。只需要一行 <script> 标签嵌入你的网页，用户就能用大白话指挥 AI 操作页面——点击按钮、填写表单、提取数据，样样都行。

简单说，它就像给你的网页装了一个"智能外挂"，让任何网页都能听懂人话。

为什么需要 Page Agent？

传统的网页自动化工具（比如 Selenium、Playwright）有个共同特点：它们都是"外部控制"。

你想自动化一个网页，得搭建后端服务、安装 Python 环境、启动无头浏览器、写一堆配置代码。而 Page Agent 的思路完全不同——它直接住在网页里。

作为网页的一部分，它不需要后端（纯前端 JavaScript 实现）、不需要用户装插件（可选扩展仅用于跨标签页）、不需要截图识别（直接操作 DOM），5 分钟就能集成到现有项目。

核心优势：为什么它能脱颖而出？

纯前端架构，零基建快速接入

Page Agent 最突出的优势是"无门槛集成"。开发者只需通过一行 CDN 脚本或 NPM 安装，就能快速将其嵌入网页。对于前端开发者而言，半天就能给产品加上 AI 助手功能；产品经理可自行制作 Demo 演示需求；运营同学能通过一句话完成复杂后台操作。相比传统工具"安装依赖→配置环境→启动服务"的复杂流程，Page Agent 的接入门槛几乎为零。

无需截图识别，精准高效更省钱

不同于依赖多模态模型、通过截图+OCR 识别页面的工具，Page Agent 直接读取和操作页面 DOM 结构，将 DOM 转化为结构化文本后提交给大模型。这种方式带来三大好处：速度更快（无需处理图像数据）、成本更低（无需昂贵的多模态模型）、准确性更高（基于 DOM 结构不受样式影响）。

自然语言交互，人人都能操控网页

用户无需编写任何代码、无需熟悉页面 DOM 结构，只需用大白话下达指令，就能让 AI 完成各类页面操作。无论是"点击登录按钮并填写账号密码""提取页面所有商品的名称和价格"，还是"提交一份旅行报销单"，Page Agent 都能精准理解意图。更贴心的是，它支持"人机协同"设计，执行操作前会展示规划步骤，遇到歧义时会主动询问用户。

灵活兼容，隐私安全有保障

Page Agent 采用"BYO LLM"（自带大模型）架构，支持接入所有兼容 OpenAI API 格式的模型，包括 OpenAI、Claude、通义千问、豆包、DeepSeek 等，也可对接本地 Ollama 模型实现离线运行。

工作原理：DOM 驱动的智能操作

Page Agent 的工作流程可以简化为四个步骤。 DOM 提取：实时扫描页面，将复杂的 DOM 树转化为结构化的文本表示，提取元素的标签、属性、文本内容、位置信息等。 文本化处理：将 DOM 树"脱水"成简化文本，只保留对操作有意义的信息，比如一个按钮会被描述为"[3] 提交按钮 (type=submit)"，其中 3 是元素索引。 LLM 决策：将简化后的 DOM 文本 + 用户指令一起发送给大模型，大模型分析当前状态，决定下一步操作（如"点击索引为 3 的元素"）。 执行操作：Page Agent 根据 LLM 返回的指令，调用 PageController 执行具体的 DOM 操作（点击、输入、滚动等），然后循环回到第一步。

用户输入指令
    ↓
提取页面 DOM → 转化为简化文本
    ↓
发送给 LLM 分析 → 获取下一步动作
    ↓
执行操作（点击/输入/滚动）
    ↓
判断是否完成任务？
     - 否 → 继续循环
     - 是 → 结束

快速上手：5 分钟跑起来

方式一：一行代码集成（最简单）

fastest 方式是用阿里提供的免费 Demo LLM：

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.8.1/dist/iife/page-agent.demo.js" crossorigin="true"></script>

⚠️ 注意：这个 Demo CDN 仅用于技术评估，使用阿里免费的测试 LLM API。

国内用户可以用 npm 镜像：

<script src="https://registry.npmmirror.com/page-agent/1.8.1/files/dist/iife/page-agent.demo.js" crossorigin="true"></script>

方式二：NPM 安装（推荐）

npm install page-agent

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
    model: 'qwen3.5-plus',
    baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
    apiKey: 'YOUR_API_KEY',
    language: 'zh-CN',
})

await agent.execute('点击登录按钮')

核心功能详解

智能表单填写：Page Agent 能自动识别表单元素，根据自然语言指令完成填写。比如你说"填写用户名 admin，密码 123456"，它会自动找到对应的输入框并填入内容。

数据提取：你可以让 Page Agent 从页面提取结构化数据。比如"提取这个表格里的所有商品名称和价格"，它会遍历表格 DOM，返回整理好的数据。

复杂流程自动化：对于需要多步骤操作的流程（如"搜索商品→选择分类→加入购物车→结算"），Page Agent 能自动规划操作序列并执行。

人机协同（Human-in-the-Loop）：执行关键操作前，Page Agent 会展示规划步骤让用户确认。遇到歧义（如页面上有多个"提交"按钮）时，会主动询问用户选择哪一个。

浏览器扩展（可选）：如果需要跨标签页操作（比如"在 A 页面复制数据，粘贴到 B 页面"），可以安装 Page Agent 的 Chrome 扩展。

MCP Server（Beta）：允许外部 Agent 客户端控制你的浏览器，实现更复杂的自动化场景。

实际应用场景

SaaS 产品 AI Copilot：在 ERP、CRM、后台管理系统中集成 Page Agent，让用户用自然语言完成复杂操作。比如"帮我导出上个月的销售报表""把状态为待审核的订单全部通过"。

智能表单填写：将 20 次点击的复杂流程变成一句话。特别适合审批系统、报销系统、数据录入等场景。

无障碍辅助：让视障用户通过语音命令操作网页，或者让老年人用大白话完成网上办事。

自动化测试：用自然语言描述测试用例，Page Agent 自动执行并验证结果。比如"测试登录功能，尝试错误密码三次，验证是否出现锁定提示"。

数据采集：从网页批量提取信息，比如"抓取这个列表页前 50 条数据的标题和链接"。

与同类项目的区别

项目	架构	特点	适用场景
Page Agent	纯前端	无需后端、DOM 驱动、轻量级	网页增强、SaaS Copilot
UI-TARS Desktop	桌面应用	视觉驱动、跨应用操作	桌面自动化
Browser-use	Python 后端	功能丰富、需要后端	复杂自动化流程
Playwright	测试框架	专业测试、学习曲线陡	自动化测试

Page Agent 的独特优势在于：纯前端、零基建、即插即用。

适合谁用？

适合这些人：想给产品快速添加 AI 助手功能的前端开发者、需要简化复杂后台操作的产品经理/运营、做无障碍辅助工具的开发团队、想降低用户使用门槛的 SaaS 厂商。

不适合这些人：需要跨应用操作（不只是网页）的场景、对数据安全有极高要求（DOM 信息会发送给 LLM）、页面结构极其复杂或频繁变动的网站。

安全与隐私提醒

风险包括 DOM 信息需要发送给 LLM 可能泄露页面敏感数据、AI 可能误操作（比如在生产环境误删数据）、如果 LLM API 密钥泄露可能被恶意利用。

建议是不要在包含敏感数据的页面使用、关键操作前开启人机确认、使用本地模型（如 Ollama）避免数据上传云端、给 AI 设置操作白名单限制可执行的操作类型。

Github：

github.com/alibaba/pag…

写在最后

Page Agent 代表了一个重要趋势：AI 正在从"独立应用"变成"网页的一部分"。

以前的 AI 工具都是独立的聊天窗口，现在它可以直接嵌入网页，成为用户操作界面的自然延伸。这就像是给每个网页都配了一个"智能助手"，随时待命、随叫随到。

但是复杂页面的理解准确率、长流程的稳定性、安全性保障，都还有提升空间。但方向是明确的——未来的网页会越来越"听得懂人话"。

关注

如果这篇文章对你有帮助，欢迎点赞、在看、转发三连。我们会持续分享更多 AI 工具和实战经验的解读。