GUI Agent进化史:从RPA脚本到AI直接操作屏幕,发生了什么

0 阅读9分钟

如果你在2020年想让机器自动操作一个桌面软件,你大概率会写一个RPA脚本——录制鼠标轨迹,硬编码坐标,然后祈祷UI不要改版。

如果你在2024年想让AI帮你操作浏览器,你可能会用一个基于CDP协议的Agent——它能读取DOM,解析HTML,在浏览器里完成一些任务。

如果你在2026年,有一个模型可以直接看着屏幕截图,理解界面内容,然后像人一样点击、输入、切换窗口——不需要API,不需要HTML解析,不需要知道底层是什么技术栈。

这三个阶段,就是GUI自动化技术在过去几年经历的三次范式转移。

今天这篇文章,从技术路径的角度,拆解GUI Agent是怎么一步步走到今天的。


第一代:RPA——录制回放与坐标硬编码

传统RPA(Robotic Process Automation)的核心逻辑很简单:把人的操作录下来,然后重放。

UiPath、Blue Prism、Automation Anywhere这些工具,本质上是在操作系统层面模拟鼠标键盘事件。它们的能力边界取决于"能不能精确定位到那个按钮"。

早期方案用坐标定位——分辨率一变就崩。后来进化到控件树识别——通过Windows UI Automation或macOS Accessibility API读取界面元素。再后来有了图像匹配——截一张按钮的图,在屏幕上找到它。

RPA在企业场景跑了很多年,至今仍是很多银行、保险公司、政务系统的主力自动化方案。但它有几个结构性问题:

  • 脆性高:UI改一个像素,脚本可能就挂了
  • 无理解能力:它不知道自己在做什么,只是机械重复
  • 维护成本高:每个流程变更都需要人重新录制或调试
  • 覆盖范围有限:跨应用、跨平台的复杂流程很难搞定

对developer来说,RPA更像是"给非技术人员用的自动化工具",而不是一个技术上令人兴奋的方向。


第二代:浏览器CUA——基于DOM/CDP的Agent

2024-2025年,随着大语言模型能力的提升,一批新的方案出现了:让LLM理解网页结构,然后操作浏览器。

这类方案的技术路径通常是这样的:

  1. 通过Chrome DevTools Protocol (CDP) 获取页面DOM
  2. 把DOM/HTML片段喂给LLM,让它理解页面结构
  3. LLM输出操作指令(点击某个元素、填写某个表单)
  4. 通过CDP执行操作

优势很明显:LLM有了"理解"能力,不再是机械的录制回放。但局限性同样明显:

  • 被锁死在浏览器里:CDP是Chrome的协议,桌面软件、原生App、游戏界面、3D应用——统统用不了
  • 依赖HTML结构:页面结构复杂时,DOM解析会很庞大;动态渲染的内容可能拿不到
  • 数据安全问题:DOM内容需要发送到云端LLM处理,意味着你页面上的所有信息——包括登录态、敏感数据——都可能经过第三方服务器

对developer来说,这类方案解决了"浏览器内自动化"的问题,但并没有解决"通用GUI自动化"的问题。


第三代:纯视觉GUI Agent——看屏幕,不看代码

2025年底到2026年,一个新的技术路径开始成熟:让模型直接看屏幕截图,通过视觉理解来操作任何图形界面。

这个路径和前两代的根本区别在于:它不依赖任何底层协议或接口。 不需要CDP,不需要Accessibility API,不需要知道应用是用什么框架写的。模型的输入就是一张截图,输出就是"在坐标(x,y)处点击"或"输入文字xxx"。

覆盖范围理论上无限——任何有图形界面的应用都可以操作。桌面软件、浏览器、游戏、3D建模工具、甚至远程桌面里的应用。

这个方向的技术挑战也很大:

  • GUI Grounding:模型需要精确理解界面元素的位置和功能
  • 多步骤规划:复杂任务需要多步操作,模型需要记住之前做了什么
  • 错误恢复:操作出错时,模型需要能识别异常状态并自主纠正

这个方向又分为云端端侧两条路径——前者把截图传到云端处理,后者直接在本地设备上推理。技术路径相同,但数据流向完全不同。


Mano-P:端侧纯视觉GUI Agent的一个实证

说到端侧GUI Agent,我们用自己的实践来说明这个方向已经走到了哪里。

Mano-P 1.0 是明略科技自研的面向端侧设备的GUI-VLA(Vision-Language-Action)智能体模型,采用纯视觉理解与操作能力,不依赖CDP协议或HTML解析。

Mano-P 开源架构

先看成绩

在学术界公认的桌面GUI Agent评估基准OSWorld上,Mano-P 72B模型达到58.2%成功率,位列专有模型全球第一

Mano-P 在 OSWorld 专有模型排行榜位列第一

在全模型排行榜前五中,其余四个均为千亿级通用大模型——一个专注GUI场景的72B模型能打到这个位置,说明专用模型在垂直场景的效率远高于通用大力出奇迹的路线:

Mano-P 在 OSWorld 全模型排行榜中位列第五

在更广泛的多模态评估中,Mano-P在GUI Grounding、感知认知、视频理解、上下文学习等13个基准榜单上达到SOTA:

Mano-P 13个基准榜单 SOTA 成绩总览

再看端侧性能

Mano-P的4B量化模型(w4a16)在Apple M4 Pro上实现476 tokens/s预填充、76 tokens/s解码,峰值内存仅4.3GB。这意味着在一台M4芯片 + 32GB内存的Mac mini或MacBook上,就可以跑一个OSWorld冠军级的GUI Agent,数据全程不出设备。

Mano-P采用三阶段渐进式训练(SFT → 离线强化学习 → 在线强化学习)和专有GSPruning视觉Token剪枝技术,已经以Apache 2.0协议开源。一行命令就能装上:

brew install mano-cua

不需要申请API Key,不需要配置云服务,不需要担心你的屏幕截图被传到哪里。


技术路径对比:四代方案一张表

维度传统RPA浏览器CUA云端Computer Use端侧GUI Agent(Mano-P)
感知方式坐标/控件树/图像匹配DOM/HTML解析云端截图+视觉模型本地截图+视觉模型
覆盖范围单应用仅浏览器理论上全平台全平台
理解能力有(基于HTML)有(基于视觉)有(基于视觉)
数据流向本地需发送DOM到云端截图上传云端数据不出设备
鲁棒性低(UI变就崩)中(依赖DOM稳定)
部署要求本地安装RPA引擎需要浏览器+API需要云端API+网络本地设备(如M4 Mac + 32GB)

这里有一个经常被忽略的关键区别:云端Computer Use和端侧GUI Agent虽然都是纯视觉方案,但数据流向完全不同。

云端方案需要把屏幕截图传到远程服务器处理。这意味着你屏幕上的一切——正在编辑的代码、打开的邮件、浏览的网页——都会经过第三方。对很多开发者来说,这是不可接受的。

端侧方案则是模型直接跑在本地设备上,截图在本地处理,操作在本地执行,数据全程不出设备。从安全架构上看,这不是"加了一层加密"的程度,而是从物理层面消除了数据泄露的可能性。


端侧为什么现在才成为可能?

纯视觉GUI Agent的概念并不新鲜,但端侧部署在2025年之前几乎不可能。原因很简单:模型太大,设备跑不动。

两个变化让端侧成为现实:

第一,硬件红利。 Apple M4芯片的统一内存架构,让消费级设备拥有了跑中等规模模型的硬件基础。M4 Mac + 32GB统一内存 + 高带宽内存总线,这在两年前是工作站才有的配置。

第二,模型压缩技术。 以Mano-P为例,其GSPruning视觉Token剪枝技术配合w4a16量化,将4B模型的峰值内存控制在4.3GB,推理速度达到476 tokens/s——这已经是一个完全可用的推理性能了。


这条路径的终局是什么?

如果我们把视角拉远一点,GUI Agent这条路径的终局可能不只是"自动化操作"。

当一个AI Agent可以看懂屏幕、理解意图、操作任何图形界面时,它实际上获得了和人类用户完全相同的软件使用能力。 它不需要每个软件都提供API,不需要等待集成,不需要学习每个工具的SDK。

这对整个软件生态的影响可能是深远的:

  • 长尾软件被激活:大量没有API、没有集成的专业软件,突然可以被Agent操作了
  • 跨应用工作流成为可能:Agent可以在Figma里设计,在Terminal里编译,在浏览器里部署——全程GUI操作
  • 软件间的壁垒被打破:不需要数据导出导入,Agent直接在界面层面搬运

从OSWorld等基准测试的成绩来看,Mano-P等专有模型在复杂桌面任务上的成功率已经超过50%。我们正在看到GUI Agent从"实验室demo"走向"开发者可用"的临界点。


写在最后

从RPA的坐标硬编码,到浏览器CUA的DOM解析,到云端Computer Use的截图上传,再到端侧GUI Agent的本地视觉推理——GUI自动化的每一次范式转移,都在解决上一代方案的结构性缺陷。

端侧纯视觉方案是目前能看到的"最干净"的架构:覆盖全平台、不依赖协议、数据不出设备。

如果你是一个对自动化有需求的developer,2026年可能是值得认真看一眼GUI Agent这个方向的时候。

Mano-P 1.0 现已开源(Apache 2.0),即刻体验。

👉 GitHub:github.com/Mininglamp-…