从"能写代码"到"能操作软件":Agent 进入电脑应用时代还差什么?
2026 年,AI Agent 的能力边界正在快速扩展。以 OpenClaw、Claude Code 为代表的 Agent 平台,已经能够完成代码编写、文件管理、信息检索、数据分析、跨平台消息处理等复杂任务。一个训练有素的 Agent,可以帮你写一段 Python 脚本、整理一份会议纪要、甚至跨多个数据源做一次竞品调研——在文字和代码的世界里,Agent 的能力已经相当成熟。
但如果你让同一个 Agent 帮你在 Photoshop 里调整图片参数、在 CRM 系统里录入客户数据、或在 Excel 中完成一系列图表操作,它大概率会告诉你:做不到。
这不是智力问题。是它看不见你的屏幕。
Agent 的能力边界,停在了图形界面门口
当前主流 Agent 平台的操作路径,大多依赖命令行(CLI)、浏览器开发者协议(CDP)或 API 接口。这套体系在代码世界里运行良好:编排任务、调度工具、执行脚本,Agent 可以做到高效且可靠。
然而,现实场景中有大量软件并不提供 API。企业内部管理系统、桌面办公套件、专业设计工具、各种行业垂直软件——这些应用的交互方式是图形用户界面(GUI),需要通过鼠标点击、键盘输入、窗口切换来完成操作。
Agent 的"大脑"已经足够聪明,但它缺一双"眼睛"和一双"手"。
这正是 Agent 从"能帮你写东西"到"能在电脑上替你做事"之间缺失的关键能力:GUI 视觉理解与操作执行。
为什么 GUI 视觉能力是关键?
人类操作电脑的方式,本质上是一个视觉驱动的认知闭环:
看屏幕 → 理解界面 → 定位目标 → 执行操作 → 观察结果 → 下一步
这个过程不依赖任何底层 API,完全通过"看"和"动手"完成。传统 RPA 尝试用固定脚本和系统 API 模拟这个过程,但高度依赖 UI 结构的稳定性——界面稍有变化,脚本就需要重写。
另一种思路是:让 Agent 像人一样,直接通过视觉理解来操作任意界面。这需要一种能将视觉感知(看屏幕)、语言理解(理解指令)和动作执行(操作界面)统一起来的模型架构,即 GUI-VLA(Vision-Language-Action)模型。
当 Agent 具备了这种能力,它的操作范围将不再受限于是否有 API 或命令行接口,而是扩展到任何有图形界面的应用。
纯视觉驱动的 GUI Agent:一种可行的路径

明略科技开源的 Mano-P(Apache 2.0 许可)正是沿着这条路径展开的实践。作为一个面向端侧设备的 GUI-VLA Agent 模型,它的核心思路是:不依赖系统 API,不解析 DOM 结构,直接通过屏幕截图理解界面内容并执行操作。
在技术实现上,Mano-P 采用了三个关键机制:
- Mano-Action 双向自增强学习框架,实现文本指令与界面操作的循环一致性学习
- 三阶段渐进式训练(SFT → 离线强化学习 → 在线强化学习),逐步提升操作的准确性和鲁棒性
- "思考-行动-验证"循环推理,Agent 在每步操作后自主校验执行结果,减少错误累积
端侧版本通过混合精度量化和视觉 Token 剪枝(GS-Pruning 算法)优化,使模型能够在 Apple M4 芯片 + 32GB 内存的 Mac 设备上本地运行,截图和任务数据全程不出设备。
在公开基准测试中,Mano-P 的表现如下:

- OSWorld 基准测试:Mano-P 1.0-72B 取得 58.2% 成功率,在专用 GUI Agent 模型中排名第一,领先第二名 opencua-72b(45.0%)达 13.2 个百分点
- WebRetriever Protocol I:Mano-P 1.0 取得 41.7 NavEval 分数,超过 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)
- 端侧推理性能:4B 量化模型(w4a16)在 M4 Pro 上实现 476 tokens/s 预填充、76 tokens/s 解码,峰值内存仅 4.3GB
当 Agent 能操作 GUI,这些场景被打开了
有了 GUI 视觉操作能力,Agent 的应用场景发生了质的变化。以下是几个已经在实际运行中的方向:
全自动化应用构建
Agent 接收自然语言需求后,自主完成需求澄清、架构设计、代码生成、本地部署,以及多层级测试——包括 API 接口测试、基于 LLM 的页面视觉检测、以及通过 VLA 模型驱动的端到端 GUI 自动化测试。测试未通过时,系统自动定位根因、修复代码、重新部署验证,循环迭代直至通过。全程无需人工介入,最终交付可运行的应用及完整文档。
商业视频智能系统
从用户指令出发,系统自动完成视频生成、上传、分析、剪辑和二次评测的完整流程。过程中 Agent 自主操作网页与剪辑软件,完成文件处理、字幕修改等精细操作,并生成包含主观评价和客观指标的分析报告。这类需要跨多个应用、涉及大量 GUI 操作的工作流,正是视觉 Agent 能力的典型应用场景。
端侧本地任务执行
模型直接运行在 Mac 设备上(需 M4 芯片 + 32GB 内存),在 CUA(Computer Use Agent)场景中,打通 Agent 工作流里需要人手动操作界面的环节。这意味着 Agent 不再需要在执行到 GUI 操作时"停下来等人帮忙",而是自主完成整个流程。
日常生活与娱乐
GUI 视觉理解能力的通用性不只体现在工作场景。通过纯视觉理解游戏界面,Agent 可以自主完成麻将识牌、分析和决策——从结构化数据处理到非结构化界面交互,同一个模型能力框架适用于多种场景。
结语
AI Agent 从"能对话"到"能写代码"用了不到两年时间。下一步——从"能写代码"到"能操作软件"——需要的不是更大的语言模型,而是一双能看懂屏幕的眼睛和一双能操作界面的手。
GUI 视觉理解能力正是 Agent 能力版图中缺失的那块拼图。当这块拼图补上,Agent 的操作边界将从 API 和命令行扩展到任何图形界面,覆盖人类在电脑上完成的绝大多数工作。
📎 项目地址:Mano-P - GitHub(Apache 2.0 许可)