CDP、DOM 解析还是纯视觉?GUI 自动化三条技术路线的适用边界

0 阅读6分钟

在构建 Agent 工作流时,一个常见的场景是跨系统串联操作:从一个桌面 ERP 导出数据,在 Excel 中处理,再提交到 Web 系统。看似简单的流程,却暴露出当前 GUI 自动化的一个根本问题——不同技术栈的应用,需要完全不同的自动化方案。 浏览器里的操作走 CDP 协议,Excel 要走 COM 接口,桌面 ERP 可能只能模拟键鼠。

三个环节、三套技术栈、三种脆弱性。这篇文章从技术路线的角度,梳理当前 GUI Agent 的三条主要实现路径,分析各自的适用边界,以及纯视觉驱动方案正在带来的变化。

路线一:CDP 协议驱动

Chrome DevTools Protocol 是浏览器自动化的事实标准,Playwright、Puppeteer、Selenium(通过 WebDriver BiDi)本质上都基于这一协议与浏览器内核通信。

适用场景: Web 应用的精确自动化操作。

核心优势:

  • 直接操作浏览器内部对象,精确度高
  • 协议层通信,速度快,不需要截图分析
  • 十余年积累的成熟生态和工具链

边界限制:

  • 仅适用于支持 CDP/BiDi 协议的浏览器环境
  • 桌面应用、原生 Qt/WPF/Cocoa 程序完全不在覆盖范围内
  • 即使在 Web 内,Shadow DOM、深层 iframe 嵌套、Canvas 渲染内容(如在线设计工具的画布区域)也会显著增加实现复杂度

简而言之,CDP 在浏览器内是最高效的方案,但它的能力边界止于浏览器窗口。

路线二:HTML/DOM 解析

另一类方案是将网页的 DOM 树提取出来,交给 LLM 理解页面结构后输出操作指令。核心假设是:页面的语义信息存在于 HTML 结构中。

适用场景: 语义化良好的 Web 页面。

核心优势:

  • 结构化信息丰富,<button><input><nav> 等标签本身就携带交互语义
  • 与 LLM 的文本理解能力天然契合

边界限制:

  • DOM 不等于视觉呈现——CSS 可以让 <div> 呈现为按钮,让 <button> 在视觉上隐藏
  • Token 消耗大,一个中等复杂页面的 DOM 序列化后可超过 10 万 token
  • 同样受限于 Web 环境,桌面应用没有统一的"DOM"可解析
  • 现代 Web 应用大量使用虚拟滚动、懒加载、CSS-in-JS 动态类名,DOM 在不同渲染状态下差异巨大

DOM 解析在特定 Web 场景下效率不错,但面对桌面应用时同样无能为力。

路线三:纯视觉驱动

第三条路线的思路完全不同:不看代码,只看屏幕。 基于视觉语言模型(VLM)或视觉语言动作模型(VLA),直接从屏幕截图理解界面元素、分析布局、决策下一步操作。

适用场景: 任何有图形界面的应用——Web、桌面软件、3D 应用、专业工具、远程桌面环境。

核心优势:

  • 与 UI 技术栈完全解耦。不管底层是 HTML、Qt、WPF、SwiftUI、Unity 还是 Unreal Engine,只要能渲染出像素就能操作
  • 桌面 ERP、财务软件、CAD 工具、游戏引擎编辑器、远程桌面中的应用——全部覆盖
  • 数据链路可以完全在本地闭合(模型端侧运行时),无需传输截图到外部服务器

当前挑战:

  • 单步推理延迟通常在秒级,速度不及 CDP 协议直接操作
  • 精度依赖模型的视觉 grounding 能力,密集 UI 元素的定位仍有优化空间
  • 长任务(数十到上百步操作)的鲁棒性需要额外的验证和纠错机制

纯视觉方案的能力现状

纯视觉 GUI 自动化并非停留在概念阶段。以 OSWorld 基准测试为例,这是目前评估 GUI Agent 在真实操作系统环境中表现的主流 benchmark,覆盖 Ubuntu 上多种桌面应用的复杂操作任务。

OSWorld Specialized Model 排行

在这个基准上,Mano-P(GUI-Aware Agent Model for Edge Devices,开源项目,Apache 2.0 协议,GitHub 地址:github.com/Mininglamp-… )的纯视觉方案达到了 58.2% 的成功率,在 Specialized Model 赛道排名第一。在 WebRetriever Protocol I 评测中,NavEval 得分 41.7。

值得注意的是,这些成绩是在纯视觉条件下取得的——不依赖 DOM 解析、不使用 Accessibility API、不通过 CDP 协议获取页面信息。模型仅通过截图来理解和操作界面。

从"看见"到"做对"的关键技术

纯视觉方案要达到实用级别的精度,需要解决几个核心问题:

GUI Grounding(界面元素定位):在截图中精确定位目标元素。GUI 元素视觉特征高度相似(按钮都是矩形+文字),需要结合上下文语义来区分。Mano-P 采用 Mano-Action 双向自强化学习,让动作模型和 grounding 模型互相提供训练信号,持续提升定位精度。

长程任务规划与纠错:复杂任务可能涉及数十步操作。Mano-P 使用 think-act-verify 循环推理机制——执行一步后截图验证结果,确认成功再继续,失败则回退重试。这显著提升了长任务的完成率。

端侧高效推理:通过 W4A16 量化 + GS-Pruning 视觉 token 剪枝,4B 参数模型在 Apple M4 Pro 上实现 476 tokens/s prefill、76 tokens/s decode,峰值内存仅 4.3GB。这使得纯视觉方案在消费级硬件上具备了实时交互的可能。

架构图转存失败,建议直接上传图片文件

三条路线不是替代关系

需要强调的是,这三条技术路线并非互相替代,而是各有最佳适用场景:

维度CDP 协议DOM 解析纯视觉
适用范围浏览器内 Web 应用浏览器内 Web 应用任何有 GUI 的应用
速度最快(毫秒级)中等较慢(秒级)
精确度最高高(取决于 DOM 质量)取决于模型能力
跨平台能力仅浏览器仅浏览器全平台
维护成本中(需适配页面变化)低(与 UI 框架解耦)

对于纯 Web 场景,CDP 仍然是效率和精度的最优选择。但当工作流涉及桌面应用、专业软件、跨系统操作时,纯视觉方案提供了一条不依赖特定技术协议的通用路径。

更可能的演进方向是混合架构:以纯视觉为通用底座保证全平台覆盖,在 Web 场景中自动切换到 CDP/DOM 方案加速执行。

小结

GUI 自动化正在从"只能操作浏览器"走向"能操作任何界面"。这个扩展的核心推动力是纯视觉驱动方案的成熟——不依赖 DOM、不依赖系统 API,让 Agent 像人一样通过"看"来理解和操作界面。

Mano-P 作为这个方向上的开源实践,目前已开放 Mano-CUA Skills(Phase 1),后续将逐步开源本地模型和训练方法。对这个技术方向感兴趣的开发者,可以在 GitHub 上查看代码和技术文档,也欢迎通过 Issue 和 Discussion 参与交流。

点击前往Mano-P