在构建 Agent 工作流时,一个常见的场景是跨系统串联操作:从一个桌面 ERP 导出数据,在 Excel 中处理,再提交到 Web 系统。看似简单的流程,却暴露出当前 GUI 自动化的一个根本问题——不同技术栈的应用,需要完全不同的自动化方案。 浏览器里的操作走 CDP 协议,Excel 要走 COM 接口,桌面 ERP 可能只能模拟键鼠。
三个环节、三套技术栈、三种脆弱性。这篇文章从技术路线的角度,梳理当前 GUI Agent 的三条主要实现路径,分析各自的适用边界,以及纯视觉驱动方案正在带来的变化。
路线一:CDP 协议驱动
Chrome DevTools Protocol 是浏览器自动化的事实标准,Playwright、Puppeteer、Selenium(通过 WebDriver BiDi)本质上都基于这一协议与浏览器内核通信。
适用场景: Web 应用的精确自动化操作。
核心优势:
- 直接操作浏览器内部对象,精确度高
- 协议层通信,速度快,不需要截图分析
- 十余年积累的成熟生态和工具链
边界限制:
- 仅适用于支持 CDP/BiDi 协议的浏览器环境
- 桌面应用、原生 Qt/WPF/Cocoa 程序完全不在覆盖范围内
- 即使在 Web 内,Shadow DOM、深层 iframe 嵌套、Canvas 渲染内容(如在线设计工具的画布区域)也会显著增加实现复杂度
简而言之,CDP 在浏览器内是最高效的方案,但它的能力边界止于浏览器窗口。
路线二:HTML/DOM 解析
另一类方案是将网页的 DOM 树提取出来,交给 LLM 理解页面结构后输出操作指令。核心假设是:页面的语义信息存在于 HTML 结构中。
适用场景: 语义化良好的 Web 页面。
核心优势:
- 结构化信息丰富,
<button>、<input>、<nav>等标签本身就携带交互语义 - 与 LLM 的文本理解能力天然契合
边界限制:
- DOM 不等于视觉呈现——CSS 可以让
<div>呈现为按钮,让<button>在视觉上隐藏 - Token 消耗大,一个中等复杂页面的 DOM 序列化后可超过 10 万 token
- 同样受限于 Web 环境,桌面应用没有统一的"DOM"可解析
- 现代 Web 应用大量使用虚拟滚动、懒加载、CSS-in-JS 动态类名,DOM 在不同渲染状态下差异巨大
DOM 解析在特定 Web 场景下效率不错,但面对桌面应用时同样无能为力。
路线三:纯视觉驱动
第三条路线的思路完全不同:不看代码,只看屏幕。 基于视觉语言模型(VLM)或视觉语言动作模型(VLA),直接从屏幕截图理解界面元素、分析布局、决策下一步操作。
适用场景: 任何有图形界面的应用——Web、桌面软件、3D 应用、专业工具、远程桌面环境。
核心优势:
- 与 UI 技术栈完全解耦。不管底层是 HTML、Qt、WPF、SwiftUI、Unity 还是 Unreal Engine,只要能渲染出像素就能操作
- 桌面 ERP、财务软件、CAD 工具、游戏引擎编辑器、远程桌面中的应用——全部覆盖
- 数据链路可以完全在本地闭合(模型端侧运行时),无需传输截图到外部服务器
当前挑战:
- 单步推理延迟通常在秒级,速度不及 CDP 协议直接操作
- 精度依赖模型的视觉 grounding 能力,密集 UI 元素的定位仍有优化空间
- 长任务(数十到上百步操作)的鲁棒性需要额外的验证和纠错机制
纯视觉方案的能力现状
纯视觉 GUI 自动化并非停留在概念阶段。以 OSWorld 基准测试为例,这是目前评估 GUI Agent 在真实操作系统环境中表现的主流 benchmark,覆盖 Ubuntu 上多种桌面应用的复杂操作任务。
在这个基准上,Mano-P(GUI-Aware Agent Model for Edge Devices,开源项目,Apache 2.0 协议,GitHub 地址:github.com/Mininglamp-… )的纯视觉方案达到了 58.2% 的成功率,在 Specialized Model 赛道排名第一。在 WebRetriever Protocol I 评测中,NavEval 得分 41.7。
值得注意的是,这些成绩是在纯视觉条件下取得的——不依赖 DOM 解析、不使用 Accessibility API、不通过 CDP 协议获取页面信息。模型仅通过截图来理解和操作界面。
从"看见"到"做对"的关键技术
纯视觉方案要达到实用级别的精度,需要解决几个核心问题:
GUI Grounding(界面元素定位):在截图中精确定位目标元素。GUI 元素视觉特征高度相似(按钮都是矩形+文字),需要结合上下文语义来区分。Mano-P 采用 Mano-Action 双向自强化学习,让动作模型和 grounding 模型互相提供训练信号,持续提升定位精度。
长程任务规划与纠错:复杂任务可能涉及数十步操作。Mano-P 使用 think-act-verify 循环推理机制——执行一步后截图验证结果,确认成功再继续,失败则回退重试。这显著提升了长任务的完成率。
端侧高效推理:通过 W4A16 量化 + GS-Pruning 视觉 token 剪枝,4B 参数模型在 Apple M4 Pro 上实现 476 tokens/s prefill、76 tokens/s decode,峰值内存仅 4.3GB。这使得纯视觉方案在消费级硬件上具备了实时交互的可能。
三条路线不是替代关系
需要强调的是,这三条技术路线并非互相替代,而是各有最佳适用场景:
| 维度 | CDP 协议 | DOM 解析 | 纯视觉 |
|---|---|---|---|
| 适用范围 | 浏览器内 Web 应用 | 浏览器内 Web 应用 | 任何有 GUI 的应用 |
| 速度 | 最快(毫秒级) | 中等 | 较慢(秒级) |
| 精确度 | 最高 | 高(取决于 DOM 质量) | 取决于模型能力 |
| 跨平台能力 | 仅浏览器 | 仅浏览器 | 全平台 |
| 维护成本 | 低 | 中(需适配页面变化) | 低(与 UI 框架解耦) |
对于纯 Web 场景,CDP 仍然是效率和精度的最优选择。但当工作流涉及桌面应用、专业软件、跨系统操作时,纯视觉方案提供了一条不依赖特定技术协议的通用路径。
更可能的演进方向是混合架构:以纯视觉为通用底座保证全平台覆盖,在 Web 场景中自动切换到 CDP/DOM 方案加速执行。
小结
GUI 自动化正在从"只能操作浏览器"走向"能操作任何界面"。这个扩展的核心推动力是纯视觉驱动方案的成熟——不依赖 DOM、不依赖系统 API,让 Agent 像人一样通过"看"来理解和操作界面。
Mano-P 作为这个方向上的开源实践,目前已开放 Mano-CUA Skills(Phase 1),后续将逐步开源本地模型和训练方法。对这个技术方向感兴趣的开发者,可以在 GitHub 上查看代码和技术文档,也欢迎通过 Issue 和 Discussion 参与交流。