苹果50年三任CEO，AI Agent领域一个月能变多少？4月20日，苹果官方宣布了一个标志性的人事变动：蒂姆·库克卸任

4月20日，苹果官方宣布了一个标志性的人事变动：蒂姆·库克卸任CEO转任执行董事长，约翰·特努斯将在今年9月1日正式接任。苹果成立至今50年，CEO只换了三位：乔布斯、库克、特努斯。每一次交接都间隔十几年，每一次都带着深思熟虑的节奏感。

三个人，五十年。乔布斯创造了Mac和iPhone，库克让苹果成为全球市值最高的公司并完成了从Intel到Apple Silicon的芯片革命，而特努斯作为硬件工程的掌门人，或许将带领苹果走向下一个硬件创新周期。

不过今天不是想聊苹果的人事变动本身。这种稳健的节奏放在AI行业面前，形成了一种很有意思的反差——在AI Agent这个领域，一个月的变化可能比苹果十年还多。尤其是GUI Agent这个方向，从学术论文中的概念到本地可用的开源工具，前后也就一年左右的时间。这个速度，是之前做软件开发很少见到的。

今天就从这个角度切入，聊聊GUI Agent这个方向的技术进展，以及它和Mac平台之间的关系。

从"能聊天"到"能干活"

大模型领域最近一年的叙事变化很有意思：2023年大家讨论的是"谁的模型更聪明"，2024年开始讨论"谁的模型更便宜"，到了2025年，讨论重心悄然转向——谁的模型能真正替人干活。

这就是GUI Agent的赛道。简单说，不再是让AI给你写一段文案，而是让AI直接操作电脑界面：点击按钮、填写表单、在不同应用之间切换完成一个完整的工作流。

目前GUI Agent主要有两条路线：一条依赖系统API和DOM树，另一条是纯视觉驱动——直接"看"屏幕截图来理解界面元素，就像人类操作电脑一样。

纯视觉路线的好处很直观：不依赖特定应用的接口，理论上能操作任何有图形界面的软件。但难度也很大——模型需要同时理解屏幕上的布局、文字、图标含义，还要精准定位点击坐标。

我们开源的 Mano-P 走的就是纯视觉驱动这条路。"Mano"来自西班牙语里的"手"，"P"是Person——AI for Personal，定位是面向Mac的端侧GUI Agent。全本地运行，数据不出设备。

Mano-P 开源架构

在OSWorld评测中（GUI Agent领域的标准评测框架，模拟真实操作系统环境下的跨应用任务），Mano-P 72B模型以58.2%的准确率排名第一，第二名为45.0%。这个差距值得关注——不是微弱优势，而是超过13个百分点。

另一项WebRetriever Protocol I评测考察的是网页信息检索与操作能力。Mano-P 在这项评测中拿到了41.7分，超过Gemini 2.5 Pro的40.9和Claude 4.5的31.3。

Mano-P Benchmark 总览

而在端侧部署方面，Mano-P 4B量化模型（w4a16）在M4 Pro芯片上的表现：prefill速度476 tokens/s，decode速度76 tokens/s，峰值内存仅4.3GB。这意味着一台配备M4芯片和32GB内存的Mac就能流畅运行。

训练采用三阶段递进的方式：

SFT（监督微调）→ 离线强化学习 → 在线强化学习

三个阶段构成一个"双向自强化"的循环——模型能力提升产生更好的数据，更好的数据反过来推动模型进一步提升。

推理阶段采用think-act-verify的循环机制：

think: 分析当前屏幕状态，规划下一步操作
  ↓
act:   执行具体的GUI操作（点击、输入、滚动等）
  ↓
verify: 验证操作结果是否符合预期
  ↓
（如果未完成，回到think）

这个机制的价值在长任务中尤其明显。GUI操作是一个链式过程，中间任何一步出错都可能导致后续步骤失败。verify环节能够在错误扩散之前及时发现并修正。

功能覆盖：

硬件要求：Apple M4芯片 + 32GB RAM。这个门槛不低，但考虑到72B模型的推理需求和GUI操作的实时性要求，是合理的配置。

Mano-P 项目基于Apache 2.0协议开源：

# 安装
brew tap HanningWang/tap && brew install mano-cua

苹果50年换了三位掌门人，GUI Agent这个赛道从论文到开源，也就是这一年的事。技术的迭代速度和企业传承的节奏，完全是两个时间尺度。

方向是清晰的：Mac的统一内存架构为端侧大模型推理提供了硬件基础，全本地运行解决了隐私和延迟的核心痛点。随着模型压缩技术的进步，Mano-P 4B级别模型的能力还有不少提升空间。

AI Agent从云端走向端侧，可能不是会不会发生的问题，而是什么时候成熟的问题。

讨论一下： 你觉得GUI Agent要达到"日常可用"的程度，最大的瓶颈是什么？是模型能力、操作精度，还是用户信任？欢迎在评论区聊聊你的看法。