GitHub 上刚开源的 Skill ，一句话控制你电脑上的软件。操控浏览器这件事，方案已经很成熟了。 CDP、Play

操控浏览器这件事，方案已经很成熟了。

CDP、Playwright，随便挑一个都能把网页上的自动化操作安排得明明白白。

但是操控电脑上的桌面软件，我一直没找到好的方案。

桌面应用没有统一的协议可以调，没有 DOM 可以解析，不同软件的界面结构也完全不一样。

你想让 AI 帮你操作电脑上的软件，基本上只能干瞪眼。

直到最近看到一个刚开源的项目 — Mano-P，做的就是这件事。

纯视觉理解桌面上的任何软件界面，像人一样去操作，而且全程跑在你自己电脑上，数据不上云。

01、开源项目简介

Mano-P 是明略科技开源的一个 GUI-VLA 智能体模型。

说白了，就是一个能看懂你电脑屏幕、自己动手操作桌面上任何软件的 AI。

它不依赖 CDP 协议，不依赖 HTML 解析，也不需要你给它开什么 API。

模型直接看屏幕截图，理解画面上有什么，然后决定该怎么操作。

开源地址：https://github.com/Mininglamp-AI/Mano-P

Mano 这个名字来自西班牙语的"手"，P 有两层意思：Person 和 Party。

意思就是无论个人还是组织，都能用它创建自己的个性化 AI。

目前在 OSWorld 专项模型榜单上排名第一，72B 模型成功率 58.2%，比第二名高了 13.2 个百分点。

而且在全球 13 个多模态基准榜单上拿到了 SOTA。

02、几个核心亮点

① 纯视觉驱动，浏览器之外的世界也能操作

现在市面上的 GUI Agent，要么依赖 CDP 协议只能操控浏览器，要么需要调系统的 Accessibility API，要么得把截图传到云端让大模型帮忙看。

Mano-P 走的是纯视觉路线。

看看效果：
mp.weixin.qq.com/s/bOJjoee6X…

模型直接看截图，像人一样理解界面内容，然后执行操作。

桌面软件、网页、3D 应用、专业工具，只要有图形界面就能操作。

这和那些只能操控浏览器的方案相比，覆盖面大了不少。

② 数据不出设备，隐私有保障

这可能是 Mano-P 和其他云端 Computer Use 方案最大的区别。

本地模式下，所有截图和任务数据完全不出你的设备。

不需要联网，不需要调 API，断网也能跑。

4B 量化模型在 Apple M4 Pro 上的表现：

预填充速度 476 tokens/s
解码速度 76 tokens/s
峰值内存仅 4.3GB

4.3GB，一台普通 M4 MacBook 就能跑起来，不需要什么高端工作站。

对于企业用户来说，业务数据、客户信息、操作记录全部留在本地，不存在数据泄露的风险。

③ Think -> Act -> Verify 闭环推理

Mano-P 不是简单的看到什么点什么。

它的工作流程是：先思考当前画面该做什么，然后执行操作，再验证操作结果是否正确。

如果发现不对，它会自己纠错重新来。

这种闭环机制让它在复杂的长任务中也能保持稳定性。

比如一个包含几十步操作的业务流程，中间某一步出了问题，它能自己发现并修正。

03、怎么用

Mano-P 提供了三种使用方式，最简单的是 CLI 工具，brew 一行命令装好：

brew tap HanningWang/tap
brew install mano-cua

装完直接用：

# 操作微信发消息
mano-cua run 
"打开微信并告诉XX会议延期"


# 在小红书搜内容
mano-cua run 
"在小红书搜索AI新闻并展示第一条帖子"


# 停止当前任务
mano-cua stop

如果你用的是 Claude Code 或者 OpenClaw，可以通过 mano-skill 直接把 Mano-P 作为技能装到你的 Agent 里面。

Python SDK（mano-client）后续也会发布。

硬件方面：

本地模式需要 M4 芯片 Mac + 32GB 内存。

如果没有 M4 Mac，也可以通过 USB 4.0 算力棒来跑。

不想本地跑的话也有云端模式，不过敏感数据比如本地文件、剪贴板、凭证这些不会上传。

Mano-P 目前还处于开源的第一阶段，开放的是 Mano-CUA Skills 部分。

Mano-CUA 的本地模型和 SDK 组件预计四月底开源，届时所有 CUA 操作都能够在本地 Mac 设备上执行，而不会上传到外部服务器。

后续还会开放训练方法和模型压缩技术，让开发者能够创建符合自身独特需求的本地 GUI-VLA 模型。

整体看下来，Mano-P 解决了一个很实际的问题：桌面软件的自动化操控。

浏览器自动化已经卷成红海了，但桌面端的 GUI Agent 一直是块硬骨头。

Mano-P 用纯视觉的方案绕过了协议和 API 的限制，而且坚持本地运行、数据不上云。

在隐私和安全越来越被重视的当下，这个方向确实值得关注一下。