GUI 诞生 45 年:从人看屏幕到 AI 看屏幕,发生了什么?

0 阅读5分钟

1981 年 4 月 27 日,施乐在纽约正式发布了 Xerox Star 8010 工作站。这是人类第一次在商用计算机上看到图形用户界面——位图显示、桌面隐喻、图标、窗口、鼠标、所见即所得。

售价 16,595 美元,配一块 17 英寸显示器,内置以太网。商业上并不成功,但它定义了此后 45 年人类与计算机交互的基本范式。

今天,2026 年 4 月 27 日,正好是 GUI 诞生 45 周年。

GUI 的五个里程碑

回顾这 45 年,GUI 的演进可以标记出几个关键节点:

  • 1981 · Xerox Star 8010:GUI 首次登场,桌面隐喻(Desktop Metaphor)成为人机交互的基础范式
  • 1984 · Macintosh:苹果将 GUI 带入消费市场,GUI 不再是实验室产物
  • 1995 · Windows 95:「开始」菜单和任务栏,GUI 成为全球数亿用户的日常
  • 2007 · iPhone:触摸屏替代鼠标,GUI 从桌面延伸到掌心
  • 2025–2026 · GUI Agent:AI 开始「看」屏幕并自主操作 GUI

前四个节点有一个共同特征:GUI 的用户始终是人。界面设计围绕人的视觉认知和操作习惯展开——图标要直观、布局要符合视觉动线、交互要有即时反馈。

第五个节点出现了一个根本性的变化:GUI 的「用户」可以是 AI

当 AI 成为 GUI 的操作者

过去两年,GUI Agent 作为一个技术方向快速发展。核心思路是:让 AI 模型像人一样「看着屏幕操作」——输入是屏幕截图,输出是键鼠操作序列。

这和传统的自动化方案(RPA、API 调用、DOM 解析)有本质区别。传统方案依赖应用层提供的结构化接口——API 要有文档、DOM 要有标签、RPA 要有控件 ID。一旦界面改版或遇到没有接口的系统,自动化就会失效。

纯视觉驱动的 GUI Agent 则绕过了这个依赖。它不需要知道按钮的 DOM 结构,只需要「看到」按钮在哪里、上面写了什么,就像人类操作计算机一样。

这恰恰回到了施乐 Star 最初的设计理念:GUI 应该是自解释的,用户通过视觉就能理解如何操作。45 年前这个理念是为人设计的,如今 AI 正在成为它的新受益者。

三条技术路线的对比

当前 GUI 自动化领域存在三种主要技术路线:

维度API/CLI 驱动DOM/CDP 解析纯视觉驱动
依赖条件目标系统需提供 API需浏览器内核或可访问控件树无特殊依赖
覆盖范围有 API 的应用Web 应用为主任意 GUI 应用
鲁棒性API 版本变更时失效UI 结构变更时失效视觉布局不变即可用
跨平台每个平台需要单独适配主要限于浏览器理论上通用

纯视觉方案的核心技术挑战在于:视觉理解的准确性和推理效率。模型需要在一张屏幕截图中精确定位交互元素,理解当前状态,并规划下一步操作——这需要视觉编码、语言理解和动作生成的联合能力。

Mano-P:面向边缘设备的 GUI-VLA Agent

在这个方向上,明略科技开源了 Mano-P 项目(Apache 2.0 协议),采用 GUI-VLA(Vision-Language-Action)架构,将视觉理解、语言推理和动作执行整合在一个端到端的模型中。

技术路线

  • 双向自强化学习框架(Text ↔ Action 循环一致性学习)
  • 三阶段训练:SFT → 离线强化学习 → 在线强化学习
  • think-act-verify 循环推理机制
  • GS-Pruning 视觉 token 剪枝,降低推理时的计算开销

公开评测数据

OS-World-Verified-Specialized-Model.png

  • Mano-P 72B 模型在 OSWorld 基准测试中达到 58.2% 准确率,排名第一(第二名 45.0%)
  • 在 WebRetriever Protocol I 评测中达到 41.7 NavEval 分(第一名),超过 Gemini 2.5 Pro(40.9)和 Claude 4.5(31.3)

端侧部署能力

Mano-P 4B 量化模型(w4a16)在搭载 Apple M4 芯片的 Mac 上运行:

  • Prefill:476 tokens/s
  • Decode:76 tokens/s
  • 峰值内存:4.3GB
  • 全本地执行,数据不出设备

硬件要求:Apple M4 芯片 + 32GB RAM 的 Mac,或通过 Mano-P 算力棒(USB 4.0)扩展。

45 年后的回望

回到 1981 年。施乐 Star 团队的核心设计者 David Canfield Smith 在论文中提出了一个理念:计算机界面应该是「可视化的、直觉的、自解释的」。用户不需要记命令行,看到图标就知道该怎么做。

45 年后,这个理念走了一个完整的循环。当年为人类视觉认知设计的图形界面,如今正在被 AI 的视觉模型重新理解和操作。GUI 没有变,变的是「谁在看屏幕」。

施乐 Star 的技术遗产——位图显示、桌面隐喻、WYSIWYG——催生了 Mac、Windows、iOS、Android。而 GUI Agent 正在开启下一个章节:界面不再只是人的工具,也成为 AI 的工作空间


相关资源