你的 AI Agent 在截屏,数据去哪了?

11 阅读6分钟

绝大多数 GUI Agent 方案都绕不开一个前提:它需要持续截取你的屏幕。

这不是设计缺陷,而是技术本质。

传统自动化工具(Selenium、PyAutoGUI 等)靠 DOM 结构或 accessibility API 来「读懂」界面,但这套机制在网页之外基本失效——遇到原生桌面软件、复杂的 ERP 系统、游戏界面,它们就抓瞎了。新一代 GUI Agent 的解法是纯视觉推理:截图作为输入,视觉语言模型来理解「当前界面是什么」「下一步该点哪里」「任务有没有完成」。这是让 Agent 真正能处理任意界面的核心机制。

但截图意味着信息流动的起点。截图被发到哪里处理,决定了你的数据安全边界在哪里。

对个人用户来说,这个问题或许还好接受。但对于处理内部系统、财务数据、医疗记录或涉密业务界面的企业开发者,这是一个必须认真回答的工程问题。


Mano-P 是什么?

Mano-P 是明略科技开源的视觉语言 GUI Agent,核心定位是纯视觉驱动的跨平台 GUI 自动化,不依赖 API 接口或 accessibility 框架,完全基于屏幕截图进行推理和操作。

它目前在两个主流 GUI 自动化评测上有亮眼的表现:

  • OSWorld(专项模型):58.2% 成功率,开源模型排名第一,领先第二名 opencua-72b 超过 13 个百分点
  • WebRetriever Protocol I:41.7 NavEval,超过 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)

OSWorld Specialized Model Rankings

WebRetriever Benchmark

Mano-P 目前支持三种接入方式:

  1. mano-cua:命令行工具,brew install mano-cua,最快的上手路径
  2. mano-skill:ClawHub Skill 形态,可直接挂入 OpenClaw / Claude Code 等 Agent 框架
  3. mano-client:Python SDK(计划中,尚未发布)

Mano-P 开源架构

这篇文章重点不在于评测成绩,而在于一个更具体的工程问题:当 Mano-P 在截图、推理、执行操作的过程中,你的数据到底在哪里?


两种运行模式,两种数据流

Mano-P 目前提供两种运行形态,数据流向完全不同,需要分开理解。

云端模式

在云端模式下,本地客户端(mano-cua)将每一轮的屏幕截图任务描述文本发送至 mano.mininglamp.com,由服务端的视觉语言模型完成推理,再将操作指令(坐标、点击类型、输入内容等)返回给本地执行。

这里有一个值得注意的边界设计:云端模式不访问本地文件系统、剪贴板和凭证管理器。 传输到服务端的,只有截图和任务描述,不存在主动扫描磁盘或读取密码的机制。

对于个人用户的日常自动化需求,这个数据模型已经足够清晰。但对企业场景而言,"截图上云"这件事本身可能就是问题所在——很多公司的内部系统截图属于受控数据,一旦涉及合规审查,截图是否离开内网往往是一条硬线。

本地模式(4B 量化模型)

本地模式是另一条路,也是对数据安全要求更高的场景的解法。

Mano-P 的 4B 量化(w4a16)版本可以直接在搭载 M4 芯片、32GB 内存的 Mac 上本地运行(Mac mini 或 MacBook 均可)。截图在本地被处理,推理在本地完成,数据全程不出设备,不依赖任何外部网络请求。

官方公布的本地推理性能数据如下:

指标数值
Prefill速度476 tokens/s
Decode速度76 tokens/s
峰值内存占用4.3 GB

对于一个 4B 量化模型来说,476 tok/s 的预填充速度在端侧是相当可用的。从截图输入到操作指令输出的完整推理链路在本机闭环完成,无需网络连接。


两种模式的安全边界对比

维度云端模式本地模式(4B)
截图去向发送至 mano.mininglamp.com本机处理,不出设备
本地文件访问不访问不访问
剪贴板访问不访问不访问
凭证/密码访问不访问不访问
网络依赖需要联网不需要
适用场景个人使用、外部网络任务企业内网、高安全场景

核心差别只有一个:截图有没有离开本地机器。

对于企业开发者,选择本地模式意味着可以在不违反数据合规要求的前提下使用 GUI Agent 能力。这不是因为云端模式不可信,而是因为数据出境这件事本身在很多场景下就是合规红线,和服务商的信誉无关。


如果需要更强能力:72B 模型的本地部署

4B 量化模型在一般 GUI 自动化任务上足够用,但如果场景需要更强的视觉理解能力(比如复杂多步骤任务、非标准界面),Mano-P 也支持 72B 大参数模型的本地部署。

方案是通过 USB 4.0+ 算力棒连接到 Mac,将算力棒作为推理单元运行 72B 模型。数据安全边界与 4B 本地模式相同:截图和任务数据留在本地网络范围内,不上传至外部服务器。

这个方案更适合对推理能力有强要求、同时又有严格安全合规约束的企业场景——在不破坏数据边界的前提下,把 AI 能力拉到最高点。


对开发者的选型建议

个人开发者 / 低敏感任务: brew install mano-cua,云端模式开箱即用,无需任何额外配置。截图只上传至 mano.mininglamp.com,不读本地文件。

企业内网 / 涉密界面自动化: 选本地模式。确认设备满足 M4 + 32GB,安装 4B 量化模型,推理完全在本地闭环。如果 4B 的推理能力不够,考虑算力棒方案运行 72B 模型。

想集成进现有工作流(OpenClaw / Claude Code): 通过 mano-skill 集成,GUI 自动化能力作为 Skill 挂入 Agent 框架。底层的数据流向取决于你选择的运行模式,和上面两种情况一一对应。


写在最后

AI Agent 的数据安全问题,本质上是「数据在哪里处理」的问题,而不是「服务商值不值得信任」的问题。对于负责任的开发者,弄清楚这张截图的完整生命周期——从哪里生成、发到哪里、谁在处理、有没有持久化——是评估任何 AI 工具的基础功课。

Mano-P 在这件事上的设计是明确的:云端模式截图上云但不读本地文件,本地模式全程数据不出设备。开发者按照自己的场景选对应的模式,安全边界清晰可查。

项目持续迭代中,Phase 2 将开放本地模型 + SDK(面向高安全要求开发者),Phase 3 将开源训练方法论和模型压缩技术(面向研究者)。

Github:github.com/Mininglamp-…