你的 AI Agent 在截屏，数据去哪了？绝大多数 GUI Agent 方案都绕不开一个前提：**它需要持续截取你的屏

绝大多数 GUI Agent 方案都绕不开一个前提：它需要持续截取你的屏幕。

这不是设计缺陷，而是技术本质。

传统自动化工具（Selenium、PyAutoGUI 等）靠 DOM 结构或 accessibility API 来「读懂」界面，但这套机制在网页之外基本失效——遇到原生桌面软件、复杂的 ERP 系统、游戏界面，它们就抓瞎了。新一代 GUI Agent 的解法是纯视觉推理：截图作为输入，视觉语言模型来理解「当前界面是什么」「下一步该点哪里」「任务有没有完成」。这是让 Agent 真正能处理任意界面的核心机制。

但截图意味着信息流动的起点。截图被发到哪里处理，决定了你的数据安全边界在哪里。

对个人用户来说，这个问题或许还好接受。但对于处理内部系统、财务数据、医疗记录或涉密业务界面的企业开发者，这是一个必须认真回答的工程问题。

Mano-P 是什么？

Mano-P 是明略科技开源的视觉语言 GUI Agent，核心定位是纯视觉驱动的跨平台 GUI 自动化，不依赖 API 接口或 accessibility 框架，完全基于屏幕截图进行推理和操作。

它目前在两个主流 GUI 自动化评测上有亮眼的表现：

OSWorld（专项模型）：58.2% 成功率，开源模型排名第一，领先第二名 opencua-72b 超过 13 个百分点
WebRetriever Protocol I：41.7 NavEval，超过 Gemini 2.5 Pro Computer Use（40.9）和 Claude 4.5 Computer Use（31.3）

OSWorld Specialized Model Rankings

WebRetriever Benchmark

Mano-P 目前支持三种接入方式：

mano-cua：命令行工具，brew install mano-cua，最快的上手路径
mano-skill：ClawHub Skill 形态，可直接挂入 OpenClaw / Claude Code 等 Agent 框架
mano-client：Python SDK（计划中，尚未发布）

Mano-P 开源架构

这篇文章重点不在于评测成绩，而在于一个更具体的工程问题：当 Mano-P 在截图、推理、执行操作的过程中，你的数据到底在哪里？

两种运行模式，两种数据流

Mano-P 目前提供两种运行形态，数据流向完全不同，需要分开理解。

云端模式

在云端模式下，本地客户端（mano-cua）将每一轮的屏幕截图和任务描述文本发送至 mano.mininglamp.com，由服务端的视觉语言模型完成推理，再将操作指令（坐标、点击类型、输入内容等）返回给本地执行。

这里有一个值得注意的边界设计：云端模式不访问本地文件系统、剪贴板和凭证管理器。 传输到服务端的，只有截图和任务描述，不存在主动扫描磁盘或读取密码的机制。

对于个人用户的日常自动化需求，这个数据模型已经足够清晰。但对企业场景而言，"截图上云"这件事本身可能就是问题所在——很多公司的内部系统截图属于受控数据，一旦涉及合规审查，截图是否离开内网往往是一条硬线。

本地模式（4B 量化模型）

本地模式是另一条路，也是对数据安全要求更高的场景的解法。

Mano-P 的 4B 量化（w4a16）版本可以直接在搭载 M4 芯片、32GB 内存的 Mac 上本地运行（Mac mini 或 MacBook 均可）。截图在本地被处理，推理在本地完成，数据全程不出设备，不依赖任何外部网络请求。

官方公布的本地推理性能数据如下：

指标	数值
Prefill速度	476 tokens/s
Decode速度	76 tokens/s
峰值内存占用	4.3 GB

对于一个 4B 量化模型来说，476 tok/s 的预填充速度在端侧是相当可用的。从截图输入到操作指令输出的完整推理链路在本机闭环完成，无需网络连接。

两种模式的安全边界对比

维度	云端模式	本地模式（4B）
截图去向	发送至 mano.mininglamp.com	本机处理，不出设备
本地文件访问	不访问	不访问
剪贴板访问	不访问	不访问
凭证/密码访问	不访问	不访问
网络依赖	需要联网	不需要
适用场景	个人使用、外部网络任务	企业内网、高安全场景

核心差别只有一个：截图有没有离开本地机器。

对于企业开发者，选择本地模式意味着可以在不违反数据合规要求的前提下使用 GUI Agent 能力。这不是因为云端模式不可信，而是因为数据出境这件事本身在很多场景下就是合规红线，和服务商的信誉无关。

如果需要更强能力：72B 模型的本地部署

4B 量化模型在一般 GUI 自动化任务上足够用，但如果场景需要更强的视觉理解能力（比如复杂多步骤任务、非标准界面），Mano-P 也支持 72B 大参数模型的本地部署。

方案是通过 USB 4.0+ 算力棒连接到 Mac，将算力棒作为推理单元运行 72B 模型。数据安全边界与 4B 本地模式相同：截图和任务数据留在本地网络范围内，不上传至外部服务器。

这个方案更适合对推理能力有强要求、同时又有严格安全合规约束的企业场景——在不破坏数据边界的前提下，把 AI 能力拉到最高点。

对开发者的选型建议

个人开发者 / 低敏感任务： brew install mano-cua，云端模式开箱即用，无需任何额外配置。截图只上传至 mano.mininglamp.com，不读本地文件。

企业内网 / 涉密界面自动化： 选本地模式。确认设备满足 M4 + 32GB，安装 4B 量化模型，推理完全在本地闭环。如果 4B 的推理能力不够，考虑算力棒方案运行 72B 模型。

想集成进现有工作流（OpenClaw / Claude Code）： 通过 mano-skill 集成，GUI 自动化能力作为 Skill 挂入 Agent 框架。底层的数据流向取决于你选择的运行模式，和上面两种情况一一对应。

写在最后

AI Agent 的数据安全问题，本质上是「数据在哪里处理」的问题，而不是「服务商值不值得信任」的问题。对于负责任的开发者，弄清楚这张截图的完整生命周期——从哪里生成、发到哪里、谁在处理、有没有持久化——是评估任何 AI 工具的基础功课。

Mano-P 在这件事上的设计是明确的：云端模式截图上云但不读本地文件，本地模式全程数据不出设备。开发者按照自己的场景选对应的模式，安全边界清晰可查。

项目持续迭代中，Phase 2 将开放本地模型 + SDK（面向高安全要求开发者），Phase 3 将开源训练方法论和模型压缩技术（面向研究者）。

Github：github.com/Mininglamp-…