当前 AI Agent 领域有一个绕不开的结构性问题:GUI Agent 需要"看"屏幕才能操作,而"看"意味着截屏。截图传到云端推理,意味着屏幕上的一切——邮件、代码、合同、聊天记录——都在数据链路中暴露了。
这不是某个产品的缺陷,而是云端 GUI Agent 架构的固有特征。对于企业级场景来说,这构成了一个不可忽视的合规风险。那么,有没有一种架构设计,能让 Agent 保持"看屏幕"的能力,同时让数据完全不出设备?
本文从技术架构层面,梳理这个问题的来源、解决思路,以及目前可行的实现路径。
云端推理的数据暴露面
还原一下典型的云端 GUI Agent 数据流:
- 截屏采集:Agent 定时或事件触发截取当前屏幕
- 图像传输:截图经压缩编码后上传至云端 API
- VLM 推理:云端视觉语言模型解析截图,生成操作指令
- 指令回传:操作指令返回本地执行
关键风险在第 2 步。一张 1080p 截图经 JPEG 压缩后约 200KB-500KB。一个中等复杂的任务可能需要 10-30 次截屏循环,每次任务执行会有 2MB-15MB 的屏幕信息被传输到外部服务器。这些截图在云端的留存时间、是否用于模型训练、是否有第三方可以访问,通常难以得到确定性答案。
对个人用户来说,这个风险或许可以接受。但在企业场景中——屏幕可能出现客户数据、内部代码、商业合同——这已经是一个合规层面的硬性约束。
把模型搬到端侧:从不可能到可行
一年前,端侧运行 VLM 几乎不现实:主流视觉语言模型参数量在 70B 以上,需要多张专业显卡才能推理。但近期几个技术趋势让局面发生了变化:
量化技术成熟。W4A16 量化可以在几乎不损失精度的前提下,将模型体积压缩到 1/4。4B 参数模型量化后运行时峰值内存可控制在 5GB 以内。
消费级芯片算力提升。Apple M4 系列芯片的 Neural Engine + GPU 统一内存架构,已经能支撑量化模型以接近云端 API 的速度完成推理。
视觉 Token 剪枝。屏幕截图中大量区域是重复背景或无关 UI 元素。通过梯度敏感度剪枝(GS-Pruning)等方法,可以在保留关键信息的前提下大幅减少输入 token 数,降低推理延迟和内存占用。
这三项技术叠加,使得端侧 GUI Agent 从实验概念走向了工程可行。
Mano-P 的架构选择:纯视觉理解 + 本地闭环
在端侧 GUI Agent 方向上,Mano-P 是一个值得关注的开源项目(GUI-Aware Agent Model for Edge Devices,Apache 2.0 协议,GitHub 地址:github.com/Mininglamp-… )。它的核心设计原则是:截图和任务描述完全不离开设备,所有推理在本地完成。
从架构设计上,有几个关键决策值得展开:
选择纯视觉路线
GUI Agent 当前有两条主要技术路线:基于 Accessibility API 解析 UI 结构树,或基于截图进行纯视觉理解。前者信息精确但依赖系统 API 支持且跨平台一致性差;后者不依赖任何系统接口,天然跨平台,但对模型的视觉理解能力要求更高。
Mano-P 选择了纯视觉路线。这使得整个数据流简化为「截图 → 本地 VLM → 操作指令」的完整闭环,没有任何需要联网的环节,数据安全边界非常清晰。
Think-Act-Verify 循环推理
端侧模型参数量有限,单次推理的准确率存在上限。Mano-P 采用三步循环机制来补偿:
- Think:观察当前截图,推理状态和下一步操作
- Act:执行鼠标/键盘操作
- Verify:再次截图验证操作结果,失败则回退重试
这本质上是用"多次低成本推理"替代"一次高成本推理"。在本地环境中,推理的边际成本几乎为零,这个策略非常合理。
三阶段渐进训练
模型训练采用 SFT(监督微调)→ 离线强化学习 → 在线强化学习的渐进流程。先建立基础 GUI 理解能力,再从历史数据中学习策略优化,最后在真实环境中迭代。这使得 4B 参数的量化模型在 GUI 操作任务上达到了可用水平。
端侧实测数据
在 Apple M4 Pro 芯片上,Mano-P 的 4B 量化模型(w4a16)实测表现:
| 指标 | 数值 |
|---|---|
| Prefill 速度 | 476 tokens/s |
| Decode 速度 | 76 tokens/s |
| 峰值内存 | 4.3 GB |
在 Benchmark 评测方面:
- OSWorld(操作系统级 GUI 操作基准):58.2% 成功率,在 Specialized Model 赛道中排名第一
- WebRetriever Protocol I:NavEval 得分 41.7
这些数据说明,在端侧硬件约束下,通过量化 + 剪枝 + 针对性训练,小模型在 GUI 操作场景中可以达到具备实用价值的精度。
端侧推理提供了一种在架构层面可验证的数据安全方案:截图数据从未离开设备,这不是隐私政策中的承诺,而是可以在代码和网络监控层面确认的事实。
Mano-P 目前已开源第一阶段(Mano-CUA Skills),后续将逐步开放本地模型、SDK 和训练方法。对于关注端侧 AI 和数据安全的开发者,可以在 GitHub 上查看完整代码和技术细节。