一台普通 MacBook,能跑端侧Agent 吗?

0 阅读4分钟

大多数人对Agent 的印象,是调用云端 API、数据上传服务器、响应等待几秒钟。

但如果告诉你,有一类 Agent 可以直接跑在你的 MacBook 上——不联网、不上云、截图和任务数据完全不出本地——你会不会想试试?

这篇文章拆解一件事:端侧Agent 在消费级 Mac 设备上的推理能力,到底到哪里了?


端侧推理,卡在哪?

长期以来,大参数量模型跑在端侧设备上面临两道墙:

第一道是内存墙。大参数量模型对内存需求极高,72B 量级的模型直接劝退绝大多数消费级硬件。

第二道是速度墙。即便内存勉强够,推理速度慢到不可用,实际部署意义不大。

这两年,围绕这两道墙的工程攻坚陆续有成果落地。量化压缩、Token 剪枝、硬件适配优化,让"大模型跑在本地"从实验室走向可用。


Mano-P 的端侧化路径

Mano-P 是明略科技开源的 GUI-VLA 智能体项目,专为边缘设备设计。其端侧化方案有三个关键技术动作:

① 混合精度量化(w4a16)

将模型权重压缩至 4-bit,激活值保持 16-bit 精度。在不显著损失模型能力的前提下,大幅降低内存占用和带宽需求。

4B 参数量的量化模型,峰值内存占用仅 4.3GB,在配备 M4 芯片和 32GB 统一内存的 Mac 设备上运行绰绰有余。

② 视觉 Token 剪枝(GSPruning)

GUI Agent 处理的是屏幕截图,图像 Token 数量通常是文本 Token 的数十倍。Mano-P 采用 GSPruning 方案——保留全局空间锚点维持界面结构骨架,识别语义异常值捕获关键 UI 元素——在仅保留约 25% 视觉 Token 的前提下,将训练吞吐量提升 3 倍以上,同时保持任务成功率基本不变。

③ Apple Silicon 适配优化

针对 M 系列芯片的统一内存架构进行推理路径专项适配,充分发挥 Apple M4 Pro 273 GB/s 内存带宽的硬件优势。


实测性能数据

在 Apple M4 Pro(64GB RAM)上,Mano-P 1.0-4B 量化模型(w4a16)的实测结果:

指标数值
预填充速度476 tokens/s
解码速度76 tokens/s
峰值内存4.3 GB
上下文长度4112 tokens

一次完整的 GUI 任务截图分析与指令生成,可以在本地毫秒级完成。对于在意数据安全的场景,所有截图和任务数据完全不出设备,无需调用任何外部服务器


公开评测成绩

OSWorld 专项模型榜单

OSWorld 专项模型评测结果 

Mano-P 1.0-72B 在 OSWorld 上取得 58.2% 成功率,在所有专用 GUI 智能体模型中排名第一,领先第二名 opencua-72b(45.0%)达 13.2 个百分点。

WebRetriever Protocol I

WebRetriever 评测结果 

Mano-P 1.0 取得 41.7 NavEval 分数,超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。


两种部署方式

方式一:直接部署在 Mac 上

支持设备:配备 Apple M4 芯片 + 32GB 及以上统一内存的 Mac mini 或 MacBook 对应模型:Mano-P 4B 量化版本(w4a16)

方式二:通过算力棒部署

使用通过 USB 4.0 或更高版本端口连接的算力棒进行部署,支持运行 Mano-P 72B 大参数模型,适合对推理精度要求更高的场景。


三种使用形式

根据不同使用场景,Mano-P 提供三种形式:

1️⃣ mano-cua(CLI 命令行工具)

适用场景:开发者、高级用户,需要在终端快速执行 GUI 自动化任务,或将能力集成进脚本和批处理流程。

# 通过 Homebrew 安装
brew tap HanningWang/tap
brew install mano-cua
# 执行任务
mano-cua run "打开微信并告诉FTY会议延期"

# 停止当前任务
mano-cua stop

Homebrew Tapgithub.com/Mininglamp-…

2️⃣ mano-client(Python SDK)

适用场景:Python 开发者,需要在 Python 项目中集成 GUI 自动化能力,支持可编程控制任务流程。

当前处于计划阶段,即将发布,敬请期待。

3️⃣ mano-skill(ClawHub Skill 形式)

适用场景:Claude Code、OpenClaw 等,需要自主调用 GUI 自动化能力完成用户任务。

通过 ClawHub CLI 一键安装:

clawhub install mano-cua

安装完成后,启动新的 Claude Code 或 OpenClaw 会话,Agent 在需要 GUI 操作时会自动调用此能力。

也可从 ClawHub 下载 zip 包手动安装。


小结

端侧 Agent 已经越过"能不能跑"的门槛,进入"跑得好不好用"的阶段。

MacBook/Mac mini 配合 M4 芯片,今天已经可以在本地完成 GUI 任务的完整推理闭环。对于在意数据安全、希望离线运行的开发者和企业场景来说,这是一个值得认真评估的选项。

Mano-P 项目地址:github.com/Mininglamp-…

欢迎 Star,也欢迎在 Issues 里反馈使用体验。