纯视觉驱动的 GUI 自动化:Mano-P 开源架构与评测深度解读

0 阅读8分钟

绝大多数 GUI Agent 方案都绕不开一个前提:你的截图要上传到云端。

这不是谁的设计失误,是架构上的必然——模型在服务器上,推理在云端发生,屏幕内容必然要离开本地。对个人工具来说还好,但碰到企业内网、核心业务系统、敏感文档,这条数据路径就开始让人不安。

另一个更深层的问题是:现在大多数 GUI Agent 依赖系统 Accessibility API 或脚本注入来"操作"界面,本质上是在走捷径——它读取 UI 元素树,而不是真正地看懂屏幕。一旦碰到不支持 Accessibility 的应用,或者界面结构发生变化,就容易失效。

纯视觉驱动是一条不同的路:不依赖任何 API Hook,模型直接通过截图理解界面,推理出下一步操作,执行,再截图,循环。这才是"像人一样操作电脑"的技术本质。

这篇文章拆解的,就是走这条路的 Mano-P——明略科技开源的 GUI-VLA 端侧智能体模型。

Mano-P 是什么

Mano 来源于西班牙语的"手",P 代表 Person(个体)和 Party(组织)。Mano-P 是一个专为边缘设备设计的 GUI-VLA(视觉-语言-行动)模型,既是一个开源项目,也是一套硬件软件协同的产品方案。

核心定位:让模型通过纯视觉感知屏幕,自主规划并执行多步骤 GUI 任务,全程数据不出本地设备。

它支持在 M4 芯片 Mac mini 或 MacBook 上直接运行本地推理,也支持通过 USB 4.0 算力棒外接部署更大参数量的模型。数据在哪里处理,完全由开发者掌控。

Mano-P 开源架构

纯视觉驱动的技术架构

工作原理

Mano-P 的执行循环是这样的:

截图当前屏幕
    ↓
模型分析画面(本地推理 or 云端推理)
    ↓
生成下一步操作指令
    ↓
执行操作(点击、输入、滚动、拖拽...)
    ↓
继续截图,循环直至任务完成

整个过程没有读取 UI 元素树,没有脚本注入,模型看到的就是用户看到的——一张截图。这带来了真正的跨应用、跨平台泛化能力:只要是屏幕上能看到的,就能操作。

两种推理模式

本地模式:推理在本地 Mac mini/MacBook(M4 芯片 + 32GB 内存)或 Mano-P 算力棒(USB 4.0 连接)上完成,截图和任务描述完全不出设备,适合高数据安全要求场景。

云端模式:未配置本地模型时,截图和任务描述发送至 mano.mininglamp.com 进行推理,本地文件、剪贴板和系统凭证不会被访问或上传。系统自动检测本地模型配置,无缝切换。

训练方法

Mano-P 基于完整 Mano 技术体系(技术报告 arxiv.org/abs/2509.17336),三个关键设计:

Mano-Action 双向自增强学习:模型在"执行→验证→反馈"的闭环中自我迭代,成功和失败都作为训练信号,驱动策略持续优化。

三阶段渐进训练:SFT(建立基础能力)→ 离线强化学习(历史数据策略优化)→ 在线强化学习(真实环境探索迭代),三阶段渐进解锁模型上限。

"思考-行动-验证"循环推理:每步操作前推理当前状态与目标(Think),执行操作(Act),验证结果是否符合预期(Verify)。闭环推理让模型在长任务中具备自我校正能力,不会因为中间某步偏差导致后续全部跑偏。

端侧部署版本额外做了混合精度量化(w4a16)、视觉 Token 剪枝、边缘推理自适应三项工程优化,把大参数量模型压进边缘设备,同时尽量保住能力边界。

评测成绩

OSWorld 专项第一:58.2%

OSWorld 是业界认可度最高的 GUI Agent 评测基准之一,由 CMU 和香港大学联合发布。评测直接让模型操控真实操作系统完成多步任务,由自动化脚本验证最终状态,没有模糊地带。

Mano-P 1.0-72B 在专项模型榜单以 58.2% 成功率排名第一,领先第二名 opencua-72b(45.0%)13.2 个百分点。

OSWorld 专项模型榜单

WebRetriever:领先 Gemini 2.5 Pro 和 Claude 4.5

在 WebRetriever Protocol I 上,Mano-P 1.0 达到 41.7 NavEval,超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。

WebRetriever 评测结果

两项评测覆盖了桌面系统任务和 Web 操作两个核心场景,基本构成了当前 GUI Agent 能力评估的主要维度。

评测总览

端侧推理性能

4B 量化版(w4a16)在 Apple M4 Pro 上的实测数据:

指标数值
预填充速度476 tokens/s
解码速度76 tokens/s
峰值内存4.3 GB

32GB 配置下,日常任务和 Agent 任务可以并行运行,不互相挤占。

三种接入方式

1. mano-cua(命令行工具)

适用于开发者和高级用户,在终端快速执行 GUI 自动化任务。

# 安装
brew tap HanningWang/tap
brew install mano-cua

安装过程自动完成:创建独立 Python 3.13 虚拟环境、安装所需依赖(含 Tkinter)、配置可执行命令到系统路径。

# 使用示例
mano-cua run "打开微信并告诉FTY会议延期"
mano-cua run "在小红书搜索AI新闻并展示第一条帖子"

# 停止当前任务
mano-cua stop

命令行界面,支持脚本集成和批处理,虚拟环境隔离不污染系统 Python。

项目地址:github.com/Mininglamp-…

2. mano-client(Python SDK,开发中)

适用于需要在 Python 项目中集成 GUI 自动化能力的开发者。

from mano_client import ManoClient

client = ManoClient()
client.run("打开微信并告诉FTY会议延期")
client.stop()

计划支持异步调用、回调函数和可编程任务流控制。当前 Python SDK 正在开发中,目前可使用 CLI 工具或 Skill 形式替代。

3. mano-skill(ClawHub Skill)

适用于 Claude Code、OpenClaw 等 AI Agent,让 Agent 自主调用 GUI 操作能力。

安装方式一:ClawHub CLI(推荐)

clawhub install mano-cua

# 安装特定版本
clawhub install mano-cua --version 1.0.0

# 更新到最新版本
clawhub update mano-cua

安装方式二:手动安装

ClawHub 下载 Skill zip 包,解压后复制到 Claude Code 的 commands 目录,重启会话后生效。

安装完成后,用户向 Agent 提出 GUI 操作需求时,Agent 自动调用:

用户: "帮我打开微信,找到FTY的聊天,告诉他会议延期到明天"
Agent: [自动调用 mano-skill 完成 GUI 操作]

支持版本管理和安全扫描,深度集成 Agent 推理能力,适合复杂多步骤任务。

ClawHub 主页:clawhub.ai/HanningWang…

权限说明(三种形式通用):需在系统偏好设置中开启屏幕录制权限和辅助功能权限(键盘/鼠标控制)。

真实场景

全自动化应用构建:接收自然语言需求,自动完成需求澄清、架构设计、代码生成、本地部署、多层测试(API 测试 + LLM 视觉检测 + GUI 端到端测试),测试未通过时自动定位问题并修复重新验证,全流程无人工干预,交付可运行应用与完整构建报告。

商业视频智能系统:从指令下发到视频生成、上传、分析、剪辑、二次评测的完整链路自动化,可操控网页和剪辑软件,完成字幕修改等细粒度操作,输出含主观评价与客观指标的分析报告。

本地模型任务执行:对数据安全有要求的场景——内网系统、敏感文档、企业私有环境——走本地模式,所有截图和操作数据在本地 Mac mini 上处理,不经过任何外部服务器。

个人娱乐场景(麻将):通过纯视觉理解游戏界面,自主识牌、分析、决策。这个场景是对泛化能力的检验——没有固定 UI 范式,没有结构化元素树,模型靠视觉理解完成操作,能玩麻将,才证明它真的在"看"。

开源路线图

Mano-P 面向三类开发者分阶段开放:

阶段开放内容目标用户
Phase 1(当前)Mano-CUA SkillsAgent 爱好者、Claude Code / OpenClaw 用户
Phase 2(进行中)本地模型 + SDK有高数据安全要求的开发者
Phase 3(规划中)训练方法论 + 模型压缩技术有定制训练需求的研究者和开发者

Phase 3 开放的是方法本身——开发者可以基于 Mano-P 的训练路线,针对自己的业务场景训练专属端侧 GUI-VLA 模型。


纯视觉驱动这条路,绕开了对系统 API 的依赖,换来的是真正的跨应用泛化能力和完整的数据自主权。Mano-P 的评测成绩证明这条路走得通,开源架构让开发者可以在这个基础上继续走。

GitHub:github.com/Mininglamp-…