1981 年 4 月 27 日,施乐在纽约正式发布了 Xerox Star 8010 工作站。这是人类第一次在商用计算机上看到图形用户界面——位图显示、桌面隐喻、图标、窗口、鼠标、所见即所得。
售价 16,595 美元,配一块 17 英寸显示器,内置以太网。商业上并不成功,但它定义了此后 45 年人类与计算机交互的基本范式。
今天,2026 年 4 月 27 日,正好是 GUI 诞生 45 周年。
GUI 的五个里程碑
回顾这 45 年,GUI 的演进可以标记出几个关键节点:
- 1981 · Xerox Star 8010:GUI 首次登场,桌面隐喻(Desktop Metaphor)成为人机交互的基础范式
- 1984 · Macintosh:苹果将 GUI 带入消费市场,GUI 不再是实验室产物
- 1995 · Windows 95:「开始」菜单和任务栏,GUI 成为全球数亿用户的日常
- 2007 · iPhone:触摸屏替代鼠标,GUI 从桌面延伸到掌心
- 2025–2026 · GUI Agent:AI 开始「看」屏幕并自主操作 GUI
前四个节点有一个共同特征:GUI 的用户始终是人。界面设计围绕人的视觉认知和操作习惯展开——图标要直观、布局要符合视觉动线、交互要有即时反馈。
第五个节点出现了一个根本性的变化:GUI 的「用户」可以是 AI。
当 AI 成为 GUI 的操作者
过去两年,GUI Agent 作为一个技术方向快速发展。核心思路是:让 AI 模型像人一样「看着屏幕操作」——输入是屏幕截图,输出是键鼠操作序列。
这和传统的自动化方案(RPA、API 调用、DOM 解析)有本质区别。传统方案依赖应用层提供的结构化接口——API 要有文档、DOM 要有标签、RPA 要有控件 ID。一旦界面改版或遇到没有接口的系统,自动化就会失效。
纯视觉驱动的 GUI Agent 则绕过了这个依赖。它不需要知道按钮的 DOM 结构,只需要「看到」按钮在哪里、上面写了什么,就像人类操作计算机一样。
这恰恰回到了施乐 Star 最初的设计理念:GUI 应该是自解释的,用户通过视觉就能理解如何操作。45 年前这个理念是为人设计的,如今 AI 正在成为它的新受益者。
三条技术路线的对比
当前 GUI 自动化领域存在三种主要技术路线:
| 维度 | API/CLI 驱动 | DOM/CDP 解析 | 纯视觉驱动 |
|---|---|---|---|
| 依赖条件 | 目标系统需提供 API | 需浏览器内核或可访问控件树 | 无特殊依赖 |
| 覆盖范围 | 有 API 的应用 | Web 应用为主 | 任意 GUI 应用 |
| 鲁棒性 | API 版本变更时失效 | UI 结构变更时失效 | 视觉布局不变即可用 |
| 跨平台 | 每个平台需要单独适配 | 主要限于浏览器 | 理论上通用 |
纯视觉方案的核心技术挑战在于:视觉理解的准确性和推理效率。模型需要在一张屏幕截图中精确定位交互元素,理解当前状态,并规划下一步操作——这需要视觉编码、语言理解和动作生成的联合能力。
Mano-P:面向边缘设备的 GUI-VLA Agent
在这个方向上,明略科技开源了 Mano-P 项目(Apache 2.0 协议),采用 GUI-VLA(Vision-Language-Action)架构,将视觉理解、语言推理和动作执行整合在一个端到端的模型中。
技术路线:
- 双向自强化学习框架(Text ↔ Action 循环一致性学习)
- 三阶段训练:SFT → 离线强化学习 → 在线强化学习
- think-act-verify 循环推理机制
- GS-Pruning 视觉 token 剪枝,降低推理时的计算开销
公开评测数据:

- Mano-P 72B 模型在 OSWorld 基准测试中达到 58.2% 准确率,排名第一(第二名 45.0%)
- 在 WebRetriever Protocol I 评测中达到 41.7 NavEval 分(第一名),超过 Gemini 2.5 Pro(40.9)和 Claude 4.5(31.3)
端侧部署能力:
Mano-P 4B 量化模型(w4a16)在搭载 Apple M4 芯片的 Mac 上运行:
- Prefill:476 tokens/s
- Decode:76 tokens/s
- 峰值内存:4.3GB
- 全本地执行,数据不出设备
硬件要求:Apple M4 芯片 + 32GB RAM 的 Mac,或通过 Mano-P 算力棒(USB 4.0)扩展。
45 年后的回望
回到 1981 年。施乐 Star 团队的核心设计者 David Canfield Smith 在论文中提出了一个理念:计算机界面应该是「可视化的、直觉的、自解释的」。用户不需要记命令行,看到图标就知道该怎么做。
45 年后,这个理念走了一个完整的循环。当年为人类视觉认知设计的图形界面,如今正在被 AI 的视觉模型重新理解和操作。GUI 没有变,变的是「谁在看屏幕」。
施乐 Star 的技术遗产——位图显示、桌面隐喻、WYSIWYG——催生了 Mac、Windows、iOS、Android。而 GUI Agent 正在开启下一个章节:界面不再只是人的工具,也成为 AI 的工作空间。
相关资源:
- Mano-P GitHub 仓库:github.com/Mininglamp-…
- 技术报告:arXiv:2509.17336