CDP、DOM 解析还是纯视觉？GUI 自动化三条技术路线的适用边界在构建 Agent 工作流时，一个常见的场景是跨系统

在构建 Agent 工作流时，一个常见的场景是跨系统串联操作：从一个桌面 ERP 导出数据，在 Excel 中处理，再提交到 Web 系统。看似简单的流程，却暴露出当前 GUI 自动化的一个根本问题——不同技术栈的应用，需要完全不同的自动化方案。 浏览器里的操作走 CDP 协议，Excel 要走 COM 接口，桌面 ERP 可能只能模拟键鼠。

三个环节、三套技术栈、三种脆弱性。这篇文章从技术路线的角度，梳理当前 GUI Agent 的三条主要实现路径，分析各自的适用边界，以及纯视觉驱动方案正在带来的变化。

路线一：CDP 协议驱动

Chrome DevTools Protocol 是浏览器自动化的事实标准，Playwright、Puppeteer、Selenium（通过 WebDriver BiDi）本质上都基于这一协议与浏览器内核通信。

适用场景： Web 应用的精确自动化操作。

核心优势：

直接操作浏览器内部对象，精确度高
协议层通信，速度快，不需要截图分析
十余年积累的成熟生态和工具链

边界限制：

仅适用于支持 CDP/BiDi 协议的浏览器环境
桌面应用、原生 Qt/WPF/Cocoa 程序完全不在覆盖范围内
即使在 Web 内，Shadow DOM、深层 iframe 嵌套、Canvas 渲染内容（如在线设计工具的画布区域）也会显著增加实现复杂度

简而言之，CDP 在浏览器内是最高效的方案，但它的能力边界止于浏览器窗口。

路线二：HTML/DOM 解析

另一类方案是将网页的 DOM 树提取出来，交给 LLM 理解页面结构后输出操作指令。核心假设是：页面的语义信息存在于 HTML 结构中。

适用场景： 语义化良好的 Web 页面。

核心优势：

结构化信息丰富，<button>、<input>、<nav> 等标签本身就携带交互语义
与 LLM 的文本理解能力天然契合

边界限制：

DOM 不等于视觉呈现——CSS 可以让 <div> 呈现为按钮，让 <button> 在视觉上隐藏
Token 消耗大，一个中等复杂页面的 DOM 序列化后可超过 10 万 token
同样受限于 Web 环境，桌面应用没有统一的"DOM"可解析
现代 Web 应用大量使用虚拟滚动、懒加载、CSS-in-JS 动态类名，DOM 在不同渲染状态下差异巨大

DOM 解析在特定 Web 场景下效率不错，但面对桌面应用时同样无能为力。

路线三：纯视觉驱动

第三条路线的思路完全不同：不看代码，只看屏幕。 基于视觉语言模型（VLM）或视觉语言动作模型（VLA），直接从屏幕截图理解界面元素、分析布局、决策下一步操作。

适用场景： 任何有图形界面的应用——Web、桌面软件、3D 应用、专业工具、远程桌面环境。

核心优势：

与 UI 技术栈完全解耦。不管底层是 HTML、Qt、WPF、SwiftUI、Unity 还是 Unreal Engine，只要能渲染出像素就能操作
桌面 ERP、财务软件、CAD 工具、游戏引擎编辑器、远程桌面中的应用——全部覆盖
数据链路可以完全在本地闭合（模型端侧运行时），无需传输截图到外部服务器

当前挑战：

单步推理延迟通常在秒级，速度不及 CDP 协议直接操作
精度依赖模型的视觉 grounding 能力，密集 UI 元素的定位仍有优化空间
长任务（数十到上百步操作）的鲁棒性需要额外的验证和纠错机制

纯视觉方案的能力现状

纯视觉 GUI 自动化并非停留在概念阶段。以 OSWorld 基准测试为例，这是目前评估 GUI Agent 在真实操作系统环境中表现的主流 benchmark，覆盖 Ubuntu 上多种桌面应用的复杂操作任务。

OSWorld Specialized Model 排行

在这个基准上，Mano-P（GUI-Aware Agent Model for Edge Devices，开源项目，Apache 2.0 协议，GitHub 地址：github.com/Mininglamp-… ）的纯视觉方案达到了 58.2% 的成功率，在 Specialized Model 赛道排名第一。在 WebRetriever Protocol I 评测中，NavEval 得分 41.7。

值得注意的是，这些成绩是在纯视觉条件下取得的——不依赖 DOM 解析、不使用 Accessibility API、不通过 CDP 协议获取页面信息。模型仅通过截图来理解和操作界面。

从"看见"到"做对"的关键技术

纯视觉方案要达到实用级别的精度，需要解决几个核心问题：

GUI Grounding（界面元素定位）：在截图中精确定位目标元素。GUI 元素视觉特征高度相似（按钮都是矩形+文字），需要结合上下文语义来区分。Mano-P 采用 Mano-Action 双向自强化学习，让动作模型和 grounding 模型互相提供训练信号，持续提升定位精度。

长程任务规划与纠错：复杂任务可能涉及数十步操作。Mano-P 使用 think-act-verify 循环推理机制——执行一步后截图验证结果，确认成功再继续，失败则回退重试。这显著提升了长任务的完成率。

端侧高效推理：通过 W4A16 量化 + GS-Pruning 视觉 token 剪枝，4B 参数模型在 Apple M4 Pro 上实现 476 tokens/s prefill、76 tokens/s decode，峰值内存仅 4.3GB。这使得纯视觉方案在消费级硬件上具备了实时交互的可能。

架构图转存失败，建议直接上传图片文件

三条路线不是替代关系

需要强调的是，这三条技术路线并非互相替代，而是各有最佳适用场景：

维度	CDP 协议	DOM 解析	纯视觉
适用范围	浏览器内 Web 应用	浏览器内 Web 应用	任何有 GUI 的应用
速度	最快（毫秒级）	中等	较慢（秒级）
精确度	最高	高（取决于 DOM 质量）	取决于模型能力
跨平台能力	仅浏览器	仅浏览器	全平台
维护成本	低	中（需适配页面变化）	低（与 UI 框架解耦）

对于纯 Web 场景，CDP 仍然是效率和精度的最优选择。但当工作流涉及桌面应用、专业软件、跨系统操作时，纯视觉方案提供了一条不依赖特定技术协议的通用路径。

更可能的演进方向是混合架构：以纯视觉为通用底座保证全平台覆盖，在 Web 场景中自动切换到 CDP/DOM 方案加速执行。

小结

GUI 自动化正在从"只能操作浏览器"走向"能操作任何界面"。这个扩展的核心推动力是纯视觉驱动方案的成熟——不依赖 DOM、不依赖系统 API，让 Agent 像人一样通过"看"来理解和操作界面。

Mano-P 作为这个方向上的开源实践，目前已开放 Mano-CUA Skills（Phase 1），后续将逐步开源本地模型和训练方法。对这个技术方向感兴趣的开发者，可以在 GitHub 上查看代码和技术文档，也欢迎通过 Issue 和 Discussion 参与交流。

点击前往Mano-P