大多数人对Agent 的印象,是调用云端 API、数据上传服务器、响应等待几秒钟。
但如果告诉你,有一类 Agent 可以直接跑在你的 MacBook 上——不联网、不上云、截图和任务数据完全不出本地——你会不会想试试?
这篇文章拆解一件事:端侧Agent 在消费级 Mac 设备上的推理能力,到底到哪里了?
端侧推理,卡在哪?
长期以来,大参数量模型跑在端侧设备上面临两道墙:
第一道是内存墙。大参数量模型对内存需求极高,72B 量级的模型直接劝退绝大多数消费级硬件。
第二道是速度墙。即便内存勉强够,推理速度慢到不可用,实际部署意义不大。
这两年,围绕这两道墙的工程攻坚陆续有成果落地。量化压缩、Token 剪枝、硬件适配优化,让"大模型跑在本地"从实验室走向可用。
Mano-P 的端侧化路径
Mano-P 是明略科技开源的 GUI-VLA 智能体项目,专为边缘设备设计。其端侧化方案有三个关键技术动作:
① 混合精度量化(w4a16)
将模型权重压缩至 4-bit,激活值保持 16-bit 精度。在不显著损失模型能力的前提下,大幅降低内存占用和带宽需求。
4B 参数量的量化模型,峰值内存占用仅 4.3GB,在配备 M4 芯片和 32GB 统一内存的 Mac 设备上运行绰绰有余。
② 视觉 Token 剪枝(GSPruning)
GUI Agent 处理的是屏幕截图,图像 Token 数量通常是文本 Token 的数十倍。Mano-P 采用 GSPruning 方案——保留全局空间锚点维持界面结构骨架,识别语义异常值捕获关键 UI 元素——在仅保留约 25% 视觉 Token 的前提下,将训练吞吐量提升 3 倍以上,同时保持任务成功率基本不变。
③ Apple Silicon 适配优化
针对 M 系列芯片的统一内存架构进行推理路径专项适配,充分发挥 Apple M4 Pro 273 GB/s 内存带宽的硬件优势。
实测性能数据
在 Apple M4 Pro(64GB RAM)上,Mano-P 1.0-4B 量化模型(w4a16)的实测结果:
| 指标 | 数值 |
|---|---|
| 预填充速度 | 476 tokens/s |
| 解码速度 | 76 tokens/s |
| 峰值内存 | 4.3 GB |
| 上下文长度 | 4112 tokens |
一次完整的 GUI 任务截图分析与指令生成,可以在本地毫秒级完成。对于在意数据安全的场景,所有截图和任务数据完全不出设备,无需调用任何外部服务器。
公开评测成绩
OSWorld 专项模型榜单
Mano-P 1.0-72B 在 OSWorld 上取得 58.2% 成功率,在所有专用 GUI 智能体模型中排名第一,领先第二名 opencua-72b(45.0%)达 13.2 个百分点。
WebRetriever Protocol I
Mano-P 1.0 取得 41.7 NavEval 分数,超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。
两种部署方式
方式一:直接部署在 Mac 上
支持设备:配备 Apple M4 芯片 + 32GB 及以上统一内存的 Mac mini 或 MacBook 对应模型:Mano-P 4B 量化版本(w4a16)
方式二:通过算力棒部署
使用通过 USB 4.0 或更高版本端口连接的算力棒进行部署,支持运行 Mano-P 72B 大参数模型,适合对推理精度要求更高的场景。
三种使用形式
根据不同使用场景,Mano-P 提供三种形式:
1️⃣ mano-cua(CLI 命令行工具)
适用场景:开发者、高级用户,需要在终端快速执行 GUI 自动化任务,或将能力集成进脚本和批处理流程。
# 通过 Homebrew 安装
brew tap HanningWang/tap
brew install mano-cua
# 执行任务
mano-cua run "打开微信并告诉FTY会议延期"
# 停止当前任务
mano-cua stop
Homebrew Tap:github.com/Mininglamp-…
2️⃣ mano-client(Python SDK)
适用场景:Python 开发者,需要在 Python 项目中集成 GUI 自动化能力,支持可编程控制任务流程。
当前处于计划阶段,即将发布,敬请期待。
3️⃣ mano-skill(ClawHub Skill 形式)
适用场景:Claude Code、OpenClaw 等,需要自主调用 GUI 自动化能力完成用户任务。
通过 ClawHub CLI 一键安装:
clawhub install mano-cua
安装完成后,启动新的 Claude Code 或 OpenClaw 会话,Agent 在需要 GUI 操作时会自动调用此能力。
也可从 ClawHub 下载 zip 包手动安装。
小结
端侧 Agent 已经越过"能不能跑"的门槛,进入"跑得好不好用"的阶段。
MacBook/Mac mini 配合 M4 芯片,今天已经可以在本地完成 GUI 任务的完整推理闭环。对于在意数据安全、希望离线运行的开发者和企业场景来说,这是一个值得认真评估的选项。
Mano-P 项目地址:github.com/Mininglamp-…
欢迎 Star,也欢迎在 Issues 里反馈使用体验。