当 AI Agent 需要截屏才能工作，数据安全的架构该怎么设计？当前 AI Agent 领域有一个绕不开的结构性问题：

当前 AI Agent 领域有一个绕不开的结构性问题：GUI Agent 需要"看"屏幕才能操作，而"看"意味着截屏。截图传到云端推理，意味着屏幕上的一切——邮件、代码、合同、聊天记录——都在数据链路中暴露了。

这不是某个产品的缺陷，而是云端 GUI Agent 架构的固有特征。对于企业级场景来说，这构成了一个不可忽视的合规风险。那么，有没有一种架构设计，能让 Agent 保持"看屏幕"的能力，同时让数据完全不出设备？

本文从技术架构层面，梳理这个问题的来源、解决思路，以及目前可行的实现路径。

云端推理的数据暴露面

还原一下典型的云端 GUI Agent 数据流：

截屏采集：Agent 定时或事件触发截取当前屏幕
图像传输：截图经压缩编码后上传至云端 API
VLM 推理：云端视觉语言模型解析截图，生成操作指令
指令回传：操作指令返回本地执行

关键风险在第 2 步。一张 1080p 截图经 JPEG 压缩后约 200KB-500KB。一个中等复杂的任务可能需要 10-30 次截屏循环，每次任务执行会有 2MB-15MB 的屏幕信息被传输到外部服务器。这些截图在云端的留存时间、是否用于模型训练、是否有第三方可以访问，通常难以得到确定性答案。

对个人用户来说，这个风险或许可以接受。但在企业场景中——屏幕可能出现客户数据、内部代码、商业合同——这已经是一个合规层面的硬性约束。

把模型搬到端侧：从不可能到可行

一年前，端侧运行 VLM 几乎不现实：主流视觉语言模型参数量在 70B 以上，需要多张专业显卡才能推理。但近期几个技术趋势让局面发生了变化：

量化技术成熟。W4A16 量化可以在几乎不损失精度的前提下，将模型体积压缩到 1/4。4B 参数模型量化后运行时峰值内存可控制在 5GB 以内。

消费级芯片算力提升。Apple M4 系列芯片的 Neural Engine + GPU 统一内存架构，已经能支撑量化模型以接近云端 API 的速度完成推理。

视觉 Token 剪枝。屏幕截图中大量区域是重复背景或无关 UI 元素。通过梯度敏感度剪枝（GS-Pruning）等方法，可以在保留关键信息的前提下大幅减少输入 token 数，降低推理延迟和内存占用。

这三项技术叠加，使得端侧 GUI Agent 从实验概念走向了工程可行。

Mano-P 的架构选择：纯视觉理解 + 本地闭环

在端侧 GUI Agent 方向上，Mano-P 是一个值得关注的开源项目（GUI-Aware Agent Model for Edge Devices，Apache 2.0 协议，GitHub 地址：github.com/Mininglamp-… ）。它的核心设计原则是：截图和任务描述完全不离开设备，所有推理在本地完成。

系统架构转存失败，建议直接上传图片文件

从架构设计上，有几个关键决策值得展开：

选择纯视觉路线

GUI Agent 当前有两条主要技术路线：基于 Accessibility API 解析 UI 结构树，或基于截图进行纯视觉理解。前者信息精确但依赖系统 API 支持且跨平台一致性差；后者不依赖任何系统接口，天然跨平台，但对模型的视觉理解能力要求更高。

Mano-P 选择了纯视觉路线。这使得整个数据流简化为「截图 → 本地 VLM → 操作指令」的完整闭环，没有任何需要联网的环节，数据安全边界非常清晰。

Think-Act-Verify 循环推理

端侧模型参数量有限，单次推理的准确率存在上限。Mano-P 采用三步循环机制来补偿：

Think：观察当前截图，推理状态和下一步操作
Act：执行鼠标/键盘操作
Verify：再次截图验证操作结果，失败则回退重试

这本质上是用"多次低成本推理"替代"一次高成本推理"。在本地环境中，推理的边际成本几乎为零，这个策略非常合理。

三阶段渐进训练

模型训练采用 SFT（监督微调）→ 离线强化学习 → 在线强化学习的渐进流程。先建立基础 GUI 理解能力，再从历史数据中学习策略优化，最后在真实环境中迭代。这使得 4B 参数的量化模型在 GUI 操作任务上达到了可用水平。

端侧实测数据

在 Apple M4 Pro 芯片上，Mano-P 的 4B 量化模型（w4a16）实测表现：

指标	数值
Prefill 速度	476 tokens/s
Decode 速度	76 tokens/s
峰值内存	4.3 GB

在 Benchmark 评测方面：

Benchmark 总览转存失败，建议直接上传图片文件

OSWorld（操作系统级 GUI 操作基准）：58.2% 成功率，在 Specialized Model 赛道中排名第一
WebRetriever Protocol I：NavEval 得分 41.7

这些数据说明，在端侧硬件约束下，通过量化 + 剪枝 + 针对性训练，小模型在 GUI 操作场景中可以达到具备实用价值的精度。

端侧推理提供了一种在架构层面可验证的数据安全方案：截图数据从未离开设备，这不是隐私政策中的承诺，而是可以在代码和网络监控层面确认的事实。

Mano-P 目前已开源第一阶段（Mano-CUA Skills），后续将逐步开放本地模型、SDK 和训练方法。对于关注端侧 AI 和数据安全的开发者，可以在 GitHub 上查看完整代码和技术细节。

点击前往Mano-P