从"能写代码"到"能操作软件"：Agent 进入电脑应用时代还差什么？# 从"能写代码"到"能操作软件"：Agent 进

从"能写代码"到"能操作软件"：Agent 进入电脑应用时代还差什么？

2026 年，AI Agent 的能力边界正在快速扩展。以 OpenClaw、Claude Code 为代表的 Agent 平台，已经能够完成代码编写、文件管理、信息检索、数据分析、跨平台消息处理等复杂任务。一个训练有素的 Agent，可以帮你写一段 Python 脚本、整理一份会议纪要、甚至跨多个数据源做一次竞品调研——在文字和代码的世界里，Agent 的能力已经相当成熟。

但如果你让同一个 Agent 帮你在 Photoshop 里调整图片参数、在 CRM 系统里录入客户数据、或在 Excel 中完成一系列图表操作，它大概率会告诉你：做不到。

这不是智力问题。是它看不见你的屏幕。

Agent 的能力边界，停在了图形界面门口

当前主流 Agent 平台的操作路径，大多依赖命令行（CLI）、浏览器开发者协议（CDP）或 API 接口。这套体系在代码世界里运行良好：编排任务、调度工具、执行脚本，Agent 可以做到高效且可靠。

然而，现实场景中有大量软件并不提供 API。企业内部管理系统、桌面办公套件、专业设计工具、各种行业垂直软件——这些应用的交互方式是图形用户界面（GUI），需要通过鼠标点击、键盘输入、窗口切换来完成操作。

Agent 的"大脑"已经足够聪明，但它缺一双"眼睛"和一双"手"。

这正是 Agent 从"能帮你写东西"到"能在电脑上替你做事"之间缺失的关键能力：GUI 视觉理解与操作执行。

为什么 GUI 视觉能力是关键？

人类操作电脑的方式，本质上是一个视觉驱动的认知闭环：

看屏幕 → 理解界面 → 定位目标 → 执行操作 → 观察结果 → 下一步

这个过程不依赖任何底层 API，完全通过"看"和"动手"完成。传统 RPA 尝试用固定脚本和系统 API 模拟这个过程，但高度依赖 UI 结构的稳定性——界面稍有变化，脚本就需要重写。

另一种思路是：让 Agent 像人一样，直接通过视觉理解来操作任意界面。这需要一种能将视觉感知（看屏幕）、语言理解（理解指令）和动作执行（操作界面）统一起来的模型架构，即 GUI-VLA（Vision-Language-Action）模型。

当 Agent 具备了这种能力，它的操作范围将不再受限于是否有 API 或命令行接口，而是扩展到任何有图形界面的应用。

纯视觉驱动的 GUI Agent：一种可行的路径

Mano-P 开源架构

明略科技开源的 Mano-P（Apache 2.0 许可）正是沿着这条路径展开的实践。作为一个面向端侧设备的 GUI-VLA Agent 模型，它的核心思路是：不依赖系统 API，不解析 DOM 结构，直接通过屏幕截图理解界面内容并执行操作。

在技术实现上，Mano-P 采用了三个关键机制：

Mano-Action 双向自增强学习框架，实现文本指令与界面操作的循环一致性学习
三阶段渐进式训练（SFT → 离线强化学习 → 在线强化学习），逐步提升操作的准确性和鲁棒性
"思考-行动-验证"循环推理，Agent 在每步操作后自主校验执行结果，减少错误累积

端侧版本通过混合精度量化和视觉 Token 剪枝（GS-Pruning 算法）优化，使模型能够在 Apple M4 芯片 + 32GB 内存的 Mac 设备上本地运行，截图和任务数据全程不出设备。

在公开基准测试中，Mano-P 的表现如下：

Benchmark 总览

OSWorld 基准测试：Mano-P 1.0-72B 取得 58.2% 成功率，在专用 GUI Agent 模型中排名第一，领先第二名 opencua-72b（45.0%）达 13.2 个百分点
WebRetriever Protocol I：Mano-P 1.0 取得 41.7 NavEval 分数，超过 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）
端侧推理性能：4B 量化模型（w4a16）在 M4 Pro 上实现 476 tokens/s 预填充、76 tokens/s 解码，峰值内存仅 4.3GB

当 Agent 能操作 GUI，这些场景被打开了

有了 GUI 视觉操作能力，Agent 的应用场景发生了质的变化。以下是几个已经在实际运行中的方向：

全自动化应用构建

Agent 接收自然语言需求后，自主完成需求澄清、架构设计、代码生成、本地部署，以及多层级测试——包括 API 接口测试、基于 LLM 的页面视觉检测、以及通过 VLA 模型驱动的端到端 GUI 自动化测试。测试未通过时，系统自动定位根因、修复代码、重新部署验证，循环迭代直至通过。全程无需人工介入，最终交付可运行的应用及完整文档。

商业视频智能系统

从用户指令出发，系统自动完成视频生成、上传、分析、剪辑和二次评测的完整流程。过程中 Agent 自主操作网页与剪辑软件，完成文件处理、字幕修改等精细操作，并生成包含主观评价和客观指标的分析报告。这类需要跨多个应用、涉及大量 GUI 操作的工作流，正是视觉 Agent 能力的典型应用场景。

端侧本地任务执行

模型直接运行在 Mac 设备上（需 M4 芯片 + 32GB 内存），在 CUA（Computer Use Agent）场景中，打通 Agent 工作流里需要人手动操作界面的环节。这意味着 Agent 不再需要在执行到 GUI 操作时"停下来等人帮忙"，而是自主完成整个流程。

日常生活与娱乐

GUI 视觉理解能力的通用性不只体现在工作场景。通过纯视觉理解游戏界面，Agent 可以自主完成麻将识牌、分析和决策——从结构化数据处理到非结构化界面交互，同一个模型能力框架适用于多种场景。

结语

AI Agent 从"能对话"到"能写代码"用了不到两年时间。下一步——从"能写代码"到"能操作软件"——需要的不是更大的语言模型，而是一双能看懂屏幕的眼睛和一双能操作界面的手。

GUI 视觉理解能力正是 Agent 能力版图中缺失的那块拼图。当这块拼图补上，Agent 的操作边界将从 API 和命令行扩展到任何图形界面，覆盖人类在电脑上完成的绝大多数工作。

📎 项目地址：Mano-P - GitHub（Apache 2.0 许可）