绝大多数 GUI Agent 方案都绕不开一个前提:你的截图要上传到云端。
这不是谁的设计失误,是架构上的必然——模型在服务器上,推理在云端发生,屏幕内容必然要离开本地。对个人工具来说还好,但碰到企业内网、核心业务系统、敏感文档,这条数据路径就开始让人不安。
另一个更深层的问题是:现在大多数 GUI Agent 依赖系统 Accessibility API 或脚本注入来"操作"界面,本质上是在走捷径——它读取 UI 元素树,而不是真正地看懂屏幕。一旦碰到不支持 Accessibility 的应用,或者界面结构发生变化,就容易失效。
纯视觉驱动是一条不同的路:不依赖任何 API Hook,模型直接通过截图理解界面,推理出下一步操作,执行,再截图,循环。这才是"像人一样操作电脑"的技术本质。
这篇文章拆解的,就是走这条路的 Mano-P——明略科技开源的 GUI-VLA 端侧智能体模型。
Mano-P 是什么
Mano 来源于西班牙语的"手",P 代表 Person(个体)和 Party(组织)。Mano-P 是一个专为边缘设备设计的 GUI-VLA(视觉-语言-行动)模型,既是一个开源项目,也是一套硬件软件协同的产品方案。
核心定位:让模型通过纯视觉感知屏幕,自主规划并执行多步骤 GUI 任务,全程数据不出本地设备。
它支持在 M4 芯片 Mac mini 或 MacBook 上直接运行本地推理,也支持通过 USB 4.0 算力棒外接部署更大参数量的模型。数据在哪里处理,完全由开发者掌控。

纯视觉驱动的技术架构
工作原理
Mano-P 的执行循环是这样的:
截图当前屏幕
↓
模型分析画面(本地推理 or 云端推理)
↓
生成下一步操作指令
↓
执行操作(点击、输入、滚动、拖拽...)
↓
继续截图,循环直至任务完成
整个过程没有读取 UI 元素树,没有脚本注入,模型看到的就是用户看到的——一张截图。这带来了真正的跨应用、跨平台泛化能力:只要是屏幕上能看到的,就能操作。
两种推理模式
本地模式:推理在本地 Mac mini/MacBook(M4 芯片 + 32GB 内存)或 Mano-P 算力棒(USB 4.0 连接)上完成,截图和任务描述完全不出设备,适合高数据安全要求场景。
云端模式:未配置本地模型时,截图和任务描述发送至 mano.mininglamp.com 进行推理,本地文件、剪贴板和系统凭证不会被访问或上传。系统自动检测本地模型配置,无缝切换。
训练方法
Mano-P 基于完整 Mano 技术体系(技术报告 arxiv.org/abs/2509.17336),三个关键设计:
Mano-Action 双向自增强学习:模型在"执行→验证→反馈"的闭环中自我迭代,成功和失败都作为训练信号,驱动策略持续优化。
三阶段渐进训练:SFT(建立基础能力)→ 离线强化学习(历史数据策略优化)→ 在线强化学习(真实环境探索迭代),三阶段渐进解锁模型上限。
"思考-行动-验证"循环推理:每步操作前推理当前状态与目标(Think),执行操作(Act),验证结果是否符合预期(Verify)。闭环推理让模型在长任务中具备自我校正能力,不会因为中间某步偏差导致后续全部跑偏。
端侧部署版本额外做了混合精度量化(w4a16)、视觉 Token 剪枝、边缘推理自适应三项工程优化,把大参数量模型压进边缘设备,同时尽量保住能力边界。
评测成绩
OSWorld 专项第一:58.2%
OSWorld 是业界认可度最高的 GUI Agent 评测基准之一,由 CMU 和香港大学联合发布。评测直接让模型操控真实操作系统完成多步任务,由自动化脚本验证最终状态,没有模糊地带。
Mano-P 1.0-72B 在专项模型榜单以 58.2% 成功率排名第一,领先第二名 opencua-72b(45.0%)13.2 个百分点。

WebRetriever:领先 Gemini 2.5 Pro 和 Claude 4.5
在 WebRetriever Protocol I 上,Mano-P 1.0 达到 41.7 NavEval,超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。

两项评测覆盖了桌面系统任务和 Web 操作两个核心场景,基本构成了当前 GUI Agent 能力评估的主要维度。

端侧推理性能
4B 量化版(w4a16)在 Apple M4 Pro 上的实测数据:
| 指标 | 数值 |
|---|---|
| 预填充速度 | 476 tokens/s |
| 解码速度 | 76 tokens/s |
| 峰值内存 | 4.3 GB |
32GB 配置下,日常任务和 Agent 任务可以并行运行,不互相挤占。
三种接入方式
1. mano-cua(命令行工具)
适用于开发者和高级用户,在终端快速执行 GUI 自动化任务。
# 安装
brew tap HanningWang/tap
brew install mano-cua
安装过程自动完成:创建独立 Python 3.13 虚拟环境、安装所需依赖(含 Tkinter)、配置可执行命令到系统路径。
# 使用示例
mano-cua run "打开微信并告诉FTY会议延期"
mano-cua run "在小红书搜索AI新闻并展示第一条帖子"
# 停止当前任务
mano-cua stop
命令行界面,支持脚本集成和批处理,虚拟环境隔离不污染系统 Python。
2. mano-client(Python SDK,开发中)
适用于需要在 Python 项目中集成 GUI 自动化能力的开发者。
from mano_client import ManoClient
client = ManoClient()
client.run("打开微信并告诉FTY会议延期")
client.stop()
计划支持异步调用、回调函数和可编程任务流控制。当前 Python SDK 正在开发中,目前可使用 CLI 工具或 Skill 形式替代。
3. mano-skill(ClawHub Skill)
适用于 Claude Code、OpenClaw 等 AI Agent,让 Agent 自主调用 GUI 操作能力。
安装方式一:ClawHub CLI(推荐)
clawhub install mano-cua
# 安装特定版本
clawhub install mano-cua --version 1.0.0
# 更新到最新版本
clawhub update mano-cua
安装方式二:手动安装
从 ClawHub 下载 Skill zip 包,解压后复制到 Claude Code 的 commands 目录,重启会话后生效。
安装完成后,用户向 Agent 提出 GUI 操作需求时,Agent 自动调用:
用户: "帮我打开微信,找到FTY的聊天,告诉他会议延期到明天"
Agent: [自动调用 mano-skill 完成 GUI 操作]
支持版本管理和安全扫描,深度集成 Agent 推理能力,适合复杂多步骤任务。
ClawHub 主页:clawhub.ai/HanningWang…
权限说明(三种形式通用):需在系统偏好设置中开启屏幕录制权限和辅助功能权限(键盘/鼠标控制)。
真实场景
全自动化应用构建:接收自然语言需求,自动完成需求澄清、架构设计、代码生成、本地部署、多层测试(API 测试 + LLM 视觉检测 + GUI 端到端测试),测试未通过时自动定位问题并修复重新验证,全流程无人工干预,交付可运行应用与完整构建报告。
商业视频智能系统:从指令下发到视频生成、上传、分析、剪辑、二次评测的完整链路自动化,可操控网页和剪辑软件,完成字幕修改等细粒度操作,输出含主观评价与客观指标的分析报告。
本地模型任务执行:对数据安全有要求的场景——内网系统、敏感文档、企业私有环境——走本地模式,所有截图和操作数据在本地 Mac mini 上处理,不经过任何外部服务器。
个人娱乐场景(麻将):通过纯视觉理解游戏界面,自主识牌、分析、决策。这个场景是对泛化能力的检验——没有固定 UI 范式,没有结构化元素树,模型靠视觉理解完成操作,能玩麻将,才证明它真的在"看"。
开源路线图
Mano-P 面向三类开发者分阶段开放:
| 阶段 | 开放内容 | 目标用户 |
|---|---|---|
| Phase 1(当前) | Mano-CUA Skills | Agent 爱好者、Claude Code / OpenClaw 用户 |
| Phase 2(进行中) | 本地模型 + SDK | 有高数据安全要求的开发者 |
| Phase 3(规划中) | 训练方法论 + 模型压缩技术 | 有定制训练需求的研究者和开发者 |
Phase 3 开放的是方法本身——开发者可以基于 Mano-P 的训练路线,针对自己的业务场景训练专属端侧 GUI-VLA 模型。
纯视觉驱动这条路,绕开了对系统 API 的依赖,换来的是真正的跨应用泛化能力和完整的数据自主权。Mano-P 的评测成绩证明这条路走得通,开源架构让开发者可以在这个基础上继续走。
GitHub:github.com/Mininglamp-…