纯视觉驱动的 GUI 自动化：Mano-P 开源架构与评测深度解读Mano-P 是一个专为边缘设备设计的 **GUI-V

绝大多数 GUI Agent 方案都绕不开一个前提：你的截图要上传到云端。

这不是谁的设计失误，是架构上的必然——模型在服务器上，推理在云端发生，屏幕内容必然要离开本地。对个人工具来说还好，但碰到企业内网、核心业务系统、敏感文档，这条数据路径就开始让人不安。

另一个更深层的问题是：现在大多数 GUI Agent 依赖系统 Accessibility API 或脚本注入来"操作"界面，本质上是在走捷径——它读取 UI 元素树，而不是真正地看懂屏幕。一旦碰到不支持 Accessibility 的应用，或者界面结构发生变化，就容易失效。

纯视觉驱动是一条不同的路：不依赖任何 API Hook，模型直接通过截图理解界面，推理出下一步操作，执行，再截图，循环。这才是"像人一样操作电脑"的技术本质。

这篇文章拆解的，就是走这条路的 Mano-P——明略科技开源的 GUI-VLA 端侧智能体模型。

Mano-P 是什么

Mano 来源于西班牙语的"手"，P 代表 Person（个体）和 Party（组织）。Mano-P 是一个专为边缘设备设计的 GUI-VLA（视觉-语言-行动）模型，既是一个开源项目，也是一套硬件软件协同的产品方案。

核心定位：让模型通过纯视觉感知屏幕，自主规划并执行多步骤 GUI 任务，全程数据不出本地设备。

它支持在 M4 芯片 Mac mini 或 MacBook 上直接运行本地推理，也支持通过 USB 4.0 算力棒外接部署更大参数量的模型。数据在哪里处理，完全由开发者掌控。

Mano-P 开源架构

纯视觉驱动的技术架构

工作原理

Mano-P 的执行循环是这样的：

截图当前屏幕
    ↓
模型分析画面（本地推理 or 云端推理）
    ↓
生成下一步操作指令
    ↓
执行操作（点击、输入、滚动、拖拽...）
    ↓
继续截图，循环直至任务完成

整个过程没有读取 UI 元素树，没有脚本注入，模型看到的就是用户看到的——一张截图。这带来了真正的跨应用、跨平台泛化能力：只要是屏幕上能看到的，就能操作。

两种推理模式

本地模式：推理在本地 Mac mini/MacBook（M4 芯片 + 32GB 内存）或 Mano-P 算力棒（USB 4.0 连接）上完成，截图和任务描述完全不出设备，适合高数据安全要求场景。

云端模式：未配置本地模型时，截图和任务描述发送至 mano.mininglamp.com 进行推理，本地文件、剪贴板和系统凭证不会被访问或上传。系统自动检测本地模型配置，无缝切换。

训练方法

Mano-P 基于完整 Mano 技术体系（技术报告 arxiv.org/abs/2509.17336），三个关键设计：

Mano-Action 双向自增强学习：模型在"执行→验证→反馈"的闭环中自我迭代，成功和失败都作为训练信号，驱动策略持续优化。

三阶段渐进训练：SFT（建立基础能力）→ 离线强化学习（历史数据策略优化）→ 在线强化学习（真实环境探索迭代），三阶段渐进解锁模型上限。

"思考-行动-验证"循环推理：每步操作前推理当前状态与目标（Think），执行操作（Act），验证结果是否符合预期（Verify）。闭环推理让模型在长任务中具备自我校正能力，不会因为中间某步偏差导致后续全部跑偏。

端侧部署版本额外做了混合精度量化（w4a16）、视觉 Token 剪枝、边缘推理自适应三项工程优化，把大参数量模型压进边缘设备，同时尽量保住能力边界。

评测成绩

OSWorld 专项第一：58.2%

OSWorld 是业界认可度最高的 GUI Agent 评测基准之一，由 CMU 和香港大学联合发布。评测直接让模型操控真实操作系统完成多步任务，由自动化脚本验证最终状态，没有模糊地带。

Mano-P 1.0-72B 在专项模型榜单以 58.2% 成功率排名第一，领先第二名 opencua-72b（45.0%）13.2 个百分点。

OSWorld 专项模型榜单

WebRetriever：领先 Gemini 2.5 Pro 和 Claude 4.5

在 WebRetriever Protocol I 上，Mano-P 1.0 达到 41.7 NavEval，超越 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）。

WebRetriever 评测结果

两项评测覆盖了桌面系统任务和 Web 操作两个核心场景，基本构成了当前 GUI Agent 能力评估的主要维度。

评测总览

端侧推理性能

4B 量化版（w4a16）在 Apple M4 Pro 上的实测数据：

指标	数值
预填充速度	476 tokens/s
解码速度	76 tokens/s
峰值内存	4.3 GB

32GB 配置下，日常任务和 Agent 任务可以并行运行，不互相挤占。

三种接入方式

1. mano-cua（命令行工具）

适用于开发者和高级用户，在终端快速执行 GUI 自动化任务。

# 安装
brew tap HanningWang/tap
brew install mano-cua

安装过程自动完成：创建独立 Python 3.13 虚拟环境、安装所需依赖（含 Tkinter）、配置可执行命令到系统路径。

# 使用示例
mano-cua run "打开微信并告诉FTY会议延期"
mano-cua run "在小红书搜索AI新闻并展示第一条帖子"

# 停止当前任务
mano-cua stop

命令行界面，支持脚本集成和批处理，虚拟环境隔离不污染系统 Python。

项目地址：github.com/Mininglamp-…

2. mano-client（Python SDK，开发中）

适用于需要在 Python 项目中集成 GUI 自动化能力的开发者。

from mano_client import ManoClient

client = ManoClient()
client.run("打开微信并告诉FTY会议延期")
client.stop()

计划支持异步调用、回调函数和可编程任务流控制。当前 Python SDK 正在开发中，目前可使用 CLI 工具或 Skill 形式替代。

3. mano-skill（ClawHub Skill）

适用于 Claude Code、OpenClaw 等 AI Agent，让 Agent 自主调用 GUI 操作能力。

安装方式一：ClawHub CLI（推荐）

clawhub install mano-cua

# 安装特定版本
clawhub install mano-cua --version 1.0.0

# 更新到最新版本
clawhub update mano-cua

安装方式二：手动安装

从 ClawHub 下载 Skill zip 包，解压后复制到 Claude Code 的 commands 目录，重启会话后生效。

安装完成后，用户向 Agent 提出 GUI 操作需求时，Agent 自动调用：

用户: "帮我打开微信，找到FTY的聊天，告诉他会议延期到明天"
Agent: [自动调用 mano-skill 完成 GUI 操作]

支持版本管理和安全扫描，深度集成 Agent 推理能力，适合复杂多步骤任务。

ClawHub 主页：clawhub.ai/HanningWang…

权限说明（三种形式通用）：需在系统偏好设置中开启屏幕录制权限和辅助功能权限（键盘/鼠标控制）。

真实场景

全自动化应用构建：接收自然语言需求，自动完成需求澄清、架构设计、代码生成、本地部署、多层测试（API 测试 + LLM 视觉检测 + GUI 端到端测试），测试未通过时自动定位问题并修复重新验证，全流程无人工干预，交付可运行应用与完整构建报告。

商业视频智能系统：从指令下发到视频生成、上传、分析、剪辑、二次评测的完整链路自动化，可操控网页和剪辑软件，完成字幕修改等细粒度操作，输出含主观评价与客观指标的分析报告。

本地模型任务执行：对数据安全有要求的场景——内网系统、敏感文档、企业私有环境——走本地模式，所有截图和操作数据在本地 Mac mini 上处理，不经过任何外部服务器。

个人娱乐场景（麻将）：通过纯视觉理解游戏界面，自主识牌、分析、决策。这个场景是对泛化能力的检验——没有固定 UI 范式，没有结构化元素树，模型靠视觉理解完成操作，能玩麻将，才证明它真的在"看"。

开源路线图

Mano-P 面向三类开发者分阶段开放：

阶段	开放内容	目标用户
Phase 1（当前）	Mano-CUA Skills	Agent 爱好者、Claude Code / OpenClaw 用户
Phase 2（进行中）	本地模型 + SDK	有高数据安全要求的开发者
Phase 3（规划中）	训练方法论 + 模型压缩技术	有定制训练需求的研究者和开发者

Phase 3 开放的是方法本身——开发者可以基于 Mano-P 的训练路线，针对自己的业务场景训练专属端侧 GUI-VLA 模型。

纯视觉驱动这条路，绕开了对系统 API 的依赖，换来的是真正的跨应用泛化能力和完整的数据自主权。Mano-P 的评测成绩证明这条路走得通，开源架构让开发者可以在这个基础上继续走。

GitHub：github.com/Mininglamp-…