当 AI Agent 需要截屏才能工作,数据安全的架构该怎么设计?

0 阅读5分钟

当前 AI Agent 领域有一个绕不开的结构性问题:GUI Agent 需要"看"屏幕才能操作,而"看"意味着截屏。截图传到云端推理,意味着屏幕上的一切——邮件、代码、合同、聊天记录——都在数据链路中暴露了。

这不是某个产品的缺陷,而是云端 GUI Agent 架构的固有特征。对于企业级场景来说,这构成了一个不可忽视的合规风险。那么,有没有一种架构设计,能让 Agent 保持"看屏幕"的能力,同时让数据完全不出设备?

本文从技术架构层面,梳理这个问题的来源、解决思路,以及目前可行的实现路径。

云端推理的数据暴露面

还原一下典型的云端 GUI Agent 数据流:

  1. 截屏采集:Agent 定时或事件触发截取当前屏幕
  2. 图像传输:截图经压缩编码后上传至云端 API
  3. VLM 推理:云端视觉语言模型解析截图,生成操作指令
  4. 指令回传:操作指令返回本地执行

关键风险在第 2 步。一张 1080p 截图经 JPEG 压缩后约 200KB-500KB。一个中等复杂的任务可能需要 10-30 次截屏循环,每次任务执行会有 2MB-15MB 的屏幕信息被传输到外部服务器。这些截图在云端的留存时间、是否用于模型训练、是否有第三方可以访问,通常难以得到确定性答案。

对个人用户来说,这个风险或许可以接受。但在企业场景中——屏幕可能出现客户数据、内部代码、商业合同——这已经是一个合规层面的硬性约束。

把模型搬到端侧:从不可能到可行

一年前,端侧运行 VLM 几乎不现实:主流视觉语言模型参数量在 70B 以上,需要多张专业显卡才能推理。但近期几个技术趋势让局面发生了变化:

量化技术成熟。W4A16 量化可以在几乎不损失精度的前提下,将模型体积压缩到 1/4。4B 参数模型量化后运行时峰值内存可控制在 5GB 以内。

消费级芯片算力提升。Apple M4 系列芯片的 Neural Engine + GPU 统一内存架构,已经能支撑量化模型以接近云端 API 的速度完成推理。

视觉 Token 剪枝。屏幕截图中大量区域是重复背景或无关 UI 元素。通过梯度敏感度剪枝(GS-Pruning)等方法,可以在保留关键信息的前提下大幅减少输入 token 数,降低推理延迟和内存占用。

这三项技术叠加,使得端侧 GUI Agent 从实验概念走向了工程可行。

Mano-P 的架构选择:纯视觉理解 + 本地闭环

在端侧 GUI Agent 方向上,Mano-P 是一个值得关注的开源项目(GUI-Aware Agent Model for Edge Devices,Apache 2.0 协议,GitHub 地址:github.com/Mininglamp-… )。它的核心设计原则是:截图和任务描述完全不离开设备,所有推理在本地完成

系统架构转存失败,建议直接上传图片文件

从架构设计上,有几个关键决策值得展开:

选择纯视觉路线

GUI Agent 当前有两条主要技术路线:基于 Accessibility API 解析 UI 结构树,或基于截图进行纯视觉理解。前者信息精确但依赖系统 API 支持且跨平台一致性差;后者不依赖任何系统接口,天然跨平台,但对模型的视觉理解能力要求更高。

Mano-P 选择了纯视觉路线。这使得整个数据流简化为「截图 → 本地 VLM → 操作指令」的完整闭环,没有任何需要联网的环节,数据安全边界非常清晰。

Think-Act-Verify 循环推理

端侧模型参数量有限,单次推理的准确率存在上限。Mano-P 采用三步循环机制来补偿:

  • Think:观察当前截图,推理状态和下一步操作
  • Act:执行鼠标/键盘操作
  • Verify:再次截图验证操作结果,失败则回退重试

这本质上是用"多次低成本推理"替代"一次高成本推理"。在本地环境中,推理的边际成本几乎为零,这个策略非常合理。

三阶段渐进训练

模型训练采用 SFT(监督微调)→ 离线强化学习 → 在线强化学习的渐进流程。先建立基础 GUI 理解能力,再从历史数据中学习策略优化,最后在真实环境中迭代。这使得 4B 参数的量化模型在 GUI 操作任务上达到了可用水平。

端侧实测数据

在 Apple M4 Pro 芯片上,Mano-P 的 4B 量化模型(w4a16)实测表现:

指标数值
Prefill 速度476 tokens/s
Decode 速度76 tokens/s
峰值内存4.3 GB

在 Benchmark 评测方面:

Benchmark 总览转存失败,建议直接上传图片文件

  • OSWorld(操作系统级 GUI 操作基准):58.2% 成功率,在 Specialized Model 赛道中排名第一
  • WebRetriever Protocol I:NavEval 得分 41.7

这些数据说明,在端侧硬件约束下,通过量化 + 剪枝 + 针对性训练,小模型在 GUI 操作场景中可以达到具备实用价值的精度。

端侧推理提供了一种在架构层面可验证的数据安全方案:截图数据从未离开设备,这不是隐私政策中的承诺,而是可以在代码和网络监控层面确认的事实。

Mano-P 目前已开源第一阶段(Mano-CUA Skills),后续将逐步开放本地模型、SDK 和训练方法。对于关注端侧 AI 和数据安全的开发者,可以在 GitHub 上查看完整代码和技术细节。

点击前往Mano-P