苹果50年三任CEO,AI Agent领域一个月能变多少?

5 阅读5分钟

4月20日,苹果官方宣布了一个标志性的人事变动:蒂姆·库克卸任CEO转任执行董事长,约翰·特努斯将在今年9月1日正式接任。苹果成立至今50年,CEO只换了三位:乔布斯、库克、特努斯。每一次交接都间隔十几年,每一次都带着深思熟虑的节奏感。

三个人,五十年。乔布斯创造了Mac和iPhone,库克让苹果成为全球市值最高的公司并完成了从Intel到Apple Silicon的芯片革命,而特努斯作为硬件工程的掌门人,或许将带领苹果走向下一个硬件创新周期。

不过今天不是想聊苹果的人事变动本身。这种稳健的节奏放在AI行业面前,形成了一种很有意思的反差——在AI Agent这个领域,一个月的变化可能比苹果十年还多。尤其是GUI Agent这个方向,从学术论文中的概念到本地可用的开源工具,前后也就一年左右的时间。这个速度,是之前做软件开发很少见到的。

今天就从这个角度切入,聊聊GUI Agent这个方向的技术进展,以及它和Mac平台之间的关系。

从"能聊天"到"能干活"

大模型领域最近一年的叙事变化很有意思:2023年大家讨论的是"谁的模型更聪明",2024年开始讨论"谁的模型更便宜",到了2025年,讨论重心悄然转向——谁的模型能真正替人干活

这就是GUI Agent的赛道。简单说,不再是让AI给你写一段文案,而是让AI直接操作电脑界面:点击按钮、填写表单、在不同应用之间切换完成一个完整的工作流。

纯视觉驱动的技术路线

目前GUI Agent主要有两条路线:一条依赖系统API和DOM树,另一条是纯视觉驱动——直接"看"屏幕截图来理解界面元素,就像人类操作电脑一样。

纯视觉路线的好处很直观:不依赖特定应用的接口,理论上能操作任何有图形界面的软件。但难度也很大——模型需要同时理解屏幕上的布局、文字、图标含义,还要精准定位点击坐标。

我们开源的 Mano-P 走的就是纯视觉驱动这条路。"Mano"来自西班牙语里的"手","P"是Person——AI for Personal,定位是面向Mac的端侧GUI Agent。全本地运行,数据不出设备。

Mano-P 开源架构

性能数据

在OSWorld评测中(GUI Agent领域的标准评测框架,模拟真实操作系统环境下的跨应用任务),Mano-P 72B模型以58.2%的准确率排名第一,第二名为45.0%。这个差距值得关注——不是微弱优势,而是超过13个百分点。

另一项WebRetriever Protocol I评测考察的是网页信息检索与操作能力。Mano-P 在这项评测中拿到了41.7分,超过Gemini 2.5 Pro的40.9和Claude 4.5的31.3。

Mano-P Benchmark 总览

而在端侧部署方面,Mano-P 4B量化模型(w4a16)在M4 Pro芯片上的表现:prefill速度476 tokens/s,decode速度76 tokens/s,峰值内存仅4.3GB。这意味着一台配备M4芯片和32GB内存的Mac就能流畅运行。

技术路线拆解

双向自强化学习框架

训练采用三阶段递进的方式:

SFT(监督微调)→ 离线强化学习 → 在线强化学习
  • SFT阶段:用标注数据教会模型基础的GUI理解和操作能力
  • 离线RL阶段:基于已收集的交互轨迹,学习更优的操作策略
  • 在线RL阶段:在真实环境中持续迭代,模型通过实际操作结果获得反馈

三个阶段构成一个"双向自强化"的循环——模型能力提升产生更好的数据,更好的数据反过来推动模型进一步提升。

think-act-verify循环推理

推理阶段采用think-act-verify的循环机制:

think: 分析当前屏幕状态,规划下一步操作act:   执行具体的GUI操作(点击、输入、滚动等)verify: 验证操作结果是否符合预期
  ↓
(如果未完成,回到think)

这个机制的价值在长任务中尤其明显。GUI操作是一个链式过程,中间任何一步出错都可能导致后续步骤失败。verify环节能够在错误扩散之前及时发现并修正。

核心能力与硬件要求

功能覆盖:

  • 复杂GUI自动化(多应用协同操作)
  • 跨系统数据整合
  • 长任务规划与执行
  • 智能报告生成

硬件要求:Apple M4芯片 + 32GB RAM。这个门槛不低,但考虑到72B模型的推理需求和GUI操作的实时性要求,是合理的配置。

安装与使用

Mano-P 项目基于Apache 2.0协议开源:

# 安装
brew tap HanningWang/tap && brew install mano-cua

GitHub:github.com/Mininglamp-…

写在最后

苹果50年换了三位掌门人,GUI Agent这个赛道从论文到开源,也就是这一年的事。技术的迭代速度和企业传承的节奏,完全是两个时间尺度。

方向是清晰的:Mac的统一内存架构为端侧大模型推理提供了硬件基础,全本地运行解决了隐私和延迟的核心痛点。随着模型压缩技术的进步,Mano-P 4B级别模型的能力还有不少提升空间。

AI Agent从云端走向端侧,可能不是会不会发生的问题,而是什么时候成熟的问题。


讨论一下: 你觉得GUI Agent要达到"日常可用"的程度,最大的瓶颈是什么?是模型能力、操作精度,还是用户信任?欢迎在评论区聊聊你的看法。