Google 出了 Android CLI Agent,Mac 上的端侧 Agent 了解一下?

73 阅读3分钟

Google Android 团队最近发布了面向 AI Agent 的全新命令行工具套件,将 SDK 管理、项目创建、设备调试等核心开发能力封装成 CLI 命令,配套标准化的 Skills 指令集和可检索的 Knowledge Base,让 AI Agent 能以更低的 token 消耗完成 Android 应用开发。

这件事之所以值得关注,是因为它释放了一个清晰的信号:端侧 Agent 正在从概念走向工程落地。

而在 Mac 平台上,我们的开源项目 Mano-P 已经在做同样的事——让 AI Agent 在用户自己的设备上运行,完成真实的 GUI 操作任务。

Mano-P 是什么

Mano-P 是明略科技开源的端侧 GUI Agent,基于 VLA(Vision-Language-Action)架构设计。

「Mano」取自西班牙语中「手」的意思,「P」代表 Person 和 Party——我们希望每个人和组织都能拥有自己的个性化 AI,在本地设备上完成复杂的操作任务。

Mano-P 开源架构

Mano-P 的工作方式是纯视觉驱动:通过视觉模型理解屏幕内容,规划操作步骤,然后通过系统原生输入完成鼠标点击、键盘输入等交互。整个过程不依赖系统 API 或命令行接口,理论上可以操作 Mac 上任何有图形界面的应用。

核心技术特点

think-act-verify 循环推理

Mano-P 在执行任务时不是单次推理,而是采用「思考-执行-验证」的循环机制。每一步操作之后,模型会重新观察屏幕状态,判断操作是否成功,再决定下一步动作。这让它能够处理包含数十到数百步骤的复杂任务。

边缘优化

为了在消费级硬件上高效运行,Mano-P 采用了混合精度量化和 GS-Pruning 视觉 token 剪枝算法。4B 量化模型(w4a16)在 Apple M4 Pro 上的实测表现:

  • prefill 速度:476 tokens/s
  • decode 速度:76 tokens/s
  • 峰值内存占用:4.3GB

这意味着一台搭载 M4 芯片和 32GB RAM 的 Mac mini 或 MacBook,就可以在本地运行 Mano-P,无需云端支持。

三阶段训练流程

Mano-P 的训练路线是 SFT → 离线强化学习 → 在线强化学习,通过双向自强化学习框架(Text↔Action 循环一致性学习)持续提升操作准确率。

Benchmark 表现

Mano-P OSWorld 评测结果

Mano-P 在多个公开基准测试中取得了具有竞争力的成绩:

  • OSWorld:Mano-P 72B 模型达到 58.2% 准确率,在专项模型中排名第一
  • WebRetriever Protocol I:Mano-P 达到 41.7 NavEval 分

Mano-P WebRetriever 评测结果

数据隐私

Mano-P 在本地模式下,截屏和任务描述完全不离开设备。对于对数据安全有严格要求的场景——比如企业内部系统操作、敏感信息处理——这是一个重要的特性。完整的客户端代码已开源,可供审计。

三阶段开源计划

Mano-P 采用分阶段开源策略:

  • Phase 1(已发布):Mano-CUA Skills,支持 Agent 爱好者和 Claude Code/OpenClaw 用户
  • Phase 2(即将发布):本地模型 + SDK,面向有数据安全需求的开发者
  • Phase 3(规划中):训练方法 + 剪枝量化技术

快速上手

CLI 工具通过 Homebrew 安装:

brew tap HanningWang/tap && brew install mano-cua

GitHub 仓库:github.com/Mininglamp-…(Apache 2.0 协议)


如果你对端侧 AI 和本地化 Agent 感兴趣,欢迎试用 Mano-P,也欢迎在评论区交流。