智能体设计模式-附录 B - AI 智能体交互:从 GUI 到现实世界环境

119 阅读12分钟

英文原地址:Appendix B - AI Agentic Interactions: From GUI to Real world environment

AI 智能体正通过与数字界面和物理世界的交互来执行日益复杂的任务。它们在多样环境中感知、处理与行动的能力,正在从根本上改变自动化、人机交互与智能系统。本附录探讨智能体如何与计算机及其所处环境进行交互,并重点介绍相关进展与项目。

交互:智能体与计算机

AI 从对话伙伴演进为主动、以任务为导向的智能体,驱动力来自 Agent-Computer Interfaces(ACI,智能体-计算机接口)。这些接口允许 AI 直接与计算机的图形用户界面(GUI)交互,使其能够像人类一样感知并操控图标、按钮等可视化元素。这种新方法超越了传统自动化依赖 API 与系统调用、僵化且依赖开发者脚本的模式。通过使用软件的可视化“前门”,AI 如今可以更灵活、更强大地自动化复杂的数字任务,其过程涉及几个关键阶段:

  • 视觉感知: 智能体首先捕获屏幕的可视化表示,本质上是进行一次截图。
  • GUI 元素识别: 随后对该图像进行分析,以区分各种 GUI 元素。它必须学会不将屏幕仅视为像素集合,而是识别为具有交互组件的结构化布局,分辨可点击的“Submit”按钮与静态横幅图像,或可编辑文本字段与简单标签。
  • 语境化理解: 作为视觉数据与智能体核心智能(通常是大型语言模型或 LLM)之间桥梁的 ACI 模块,会在任务语境中解释这些元素。它理解放大镜图标通常意味着“搜索”,也能识别一组单选按钮表示一个选项集合。该模块对于增强 LLM 的推理至关重要,使其能够基于视觉证据制定计划。
  • 动态动作与响应: 随后智能体以编程方式控制鼠标与键盘来执行其计划——点击、输入、滚动与拖拽。关键在于它必须持续监控屏幕的视觉反馈,动态应对变化、加载界面、弹出通知或错误,从而成功导航多步骤工作流程。

这项技术已不再停留在理论层面。多家领先的 AI 实验室已开发出可运行的智能体,展示了 GUI 交互的强大能力:

ChatGPT Operator(OpenAI): 被设想为数字伙伴,ChatGPT Operator 旨在直接从桌面跨广泛应用自动化任务。它理解屏幕上的元素,使其能够执行诸如将电子表格数据转入客户关系管理(CRM)平台、跨航空公司与酒店网站预订复杂旅行行程,或在无需为每项服务获取专门 API 访问的情况下填写详细在线表单等操作。这使其成为通用适配的工具,旨在通过接管重复性的数字事务来提升个人与企业生产力。

Google Project Mariner: 作为一个研究原型,Project Mariner 在 Chrome 浏览器中作为一个智能体运行(见图 1)。其目的是理解用户意图,并自主代表用户执行基于网页的任务。例如,用户可以让它在特定预算和社区范围内寻找三套待租公寓;Mariner 随后会访问房产网站、应用筛选条件、浏览房源,并将相关信息提取到一个文档中。该项目代表了 Google 在打造真正有用且“具备智能体能力”的网络体验方面的探索,即浏览器主动为用户工作。

图 1:智能体与网页浏览器之间的交互 unknown.png

Anthropic’s Computer Use: 这一功能使 Anthropic 的 AI 模型 Claude 成为计算机桌面环境的直接使用者。通过捕获屏幕截图来“看见”屏幕,并以编程方式控制鼠标和键盘,Claude 能够编排跨越多个、彼此不相连应用的工作流。用户可以让它分析 PDF 报告中的数据,打开电子表格应用对这些数据进行计算,生成图表,然后将该图表粘贴到电子邮件草稿中——这一系列任务此前需要持续的人为参与。

Browser Use: 这是一个开源库,提供用于程序化浏览器自动化的高级 API。它通过授予对文档对象模型(DOM)的访问与控制,使 AI 智能体能够与网页交互。该 API 将浏览器控制协议中复杂的底层命令抽象为更简化、直观的函数集合。这使智能体能够执行复杂的动作序列,包括从嵌套元素中提取数据、提交表单,以及在多页面间自动导航。结果是,该库有助于将非结构化的网页数据转化为结构化格式,便于 AI 智能体系统性处理并用于分析或决策。

交互:智能体与环境

超越计算机屏幕的限制,AI 智能体正越来越多地被设计用于与复杂、动态的环境交互,往往映射真实世界。这需要复杂的感知、推理和执行能力。

Google 的 Project Astra 是推动智能体与环境交互边界的典型案例。Astra 旨在打造一个在日常生活中有用的通用 AI 智能体,利用多模态输入(视觉、声音、语音)与输出,在情境中理解并与世界互动。该项目聚焦于快速理解、推理和响应,使智能体能够通过摄像头和麦克风“看见”“听到”周围环境,并在提供实时协助的同时进行自然对话。Astra 的愿景是一个能无缝协助用户完成任务的智能体,从寻找遗失物品到调试代码,皆可通过对其观察到的环境进行理解来实现。这超越了简单的语音指令,迈向对用户即时物理情境的真正具身化理解。

Google 的 Gemini Live 将标准的 AI 交互转变为流畅而动态的对话。用户可以用自然的语音与 AI 交流,并以极低延迟获得自然听感的回应,甚至可以在对话中途打断或切换话题,促使 AI 立即适配。该界面超越语音本身,允许用户通过手机摄像头、共享屏幕或上传文件来融入视觉信息,以开展更具情境感知的讨论。更高级的版本甚至能够感知用户的语气,并智能滤除无关的背景噪音,以更好地理解对话。这些能力结合起来,带来丰富的交互,例如只需将相机对准某个任务即可获得实时操作指导。

OpenAI 的 GPT-4o 模型是为“全模态”交互而设计的替代方案,意味着它可以在语音、视觉与文本之间进行推理。它以接近人类反应时间的低延迟处理这些输入,从而支持实时对话。例如,用户可以向 AI 展示实时视频流以询问正在发生的情况,或用于语言翻译。OpenAI 为开发者提供了“Realtime API”,用于构建需要低延迟、语音到语音交互的应用程序。

OpenAI 的 ChatGPT Agent 相较其前代在架构上实现了重大进步,集成了全新的能力框架。其设计包含多个关键功能模态:自主导航实时互联网以进行数据提取、动态生成并执行计算代码以完成数据分析等任务、以及直接与第三方软件应用进行接口对接。通过综合这些功能,智能体能够从单一用户指令出发,编排并完成复杂的序列化工作流。因此,它可以自主管理整套流程,例如执行市场分析并生成相应演示文稿,或规划物流安排并执行必要的交易。与发布同步,OpenAI 主动应对此类系统固有的新兴安全考量。随附的“System Card”阐明了具备在线行动能力的 AI 所关联的潜在运营风险,承认了新的滥用向量。为降低这些风险,智能体架构内置了工程化的安全护栏,例如对某些类别的操作要求明确的用户授权,并部署强健的内容过滤机制。公司目前正与其初始用户群体合作,通过以反馈为驱动的迭代过程进一步完善这些安全协议。

Seeing AI 是一款来自 Microsoft 的配套移动应用,通过对周围环境进行实时语音描述,帮助盲人或低视力人群。该应用借助设备摄像头中的人工智能来识别和描述各类要素,包括物体、文本,甚至人物。其核心功能包括阅读文档、识别货币、通过条形码识别产品,以及描述场景与颜色。通过提升对视觉信息的获取,Seeing AI 最终促进了视障用户更大的独立性。

Anthropic 的 Claude 4 系列: Anthropic 的 Claude 4 是另一种具备高级推理与分析能力的选择。尽管历史上侧重文本,Claude 4 也包含了强大的视觉能力,能够处理来自图像、图表和文档的信息。该模型适合处理复杂的多步骤任务并提供详细分析。尽管与其他模型相比,实时对话并非其主要侧重点,但其底层智能旨在构建高度有能力的 AI 智能体。

Vibe Coding:与 AI 直觉式开发

除了直接与图形用户界面(GUI)和物理世界交互之外,开发者用 AI 构建软件的一种新范式正在兴起:“vibe coding(氛围式编程)”。这种方法摒弃了精确的、逐步的指令,转而依赖开发者与 AI 编码助手之间更直观、对话式、迭代式的互动。开发者提供一个高层次目标、期望的“vibe(氛围)”或大致方向,AI 则生成与之匹配的代码。

这一过程具有以下特征:

  • 对话式提示: 开发者不再撰写详细规格说明,而可能会说:“为一个新应用创建一个简洁、现代感的落地页”,或“把这个函数重构得更 Pythonic、可读性更好”。AI 会解读“modern(现代感)”或“Pythonic”的“vibe”,并生成相应的代码。
  • 迭代式完善: AI 的初始输出通常是一个起点。随后开发者用自然语言反馈,例如:“不错的开始,但能把按钮改成蓝色吗?”或“给那部分加一些错误处理”。这种来回往复会持续,直到代码满足开发者预期。
  • 创意式协作伙伴: 在氛围式编程中,AI 充当创意伙伴,提出开发者可能未曾考虑的想法与方案。这能够加速开发过程,并促成更具创新性的成果。
  • 聚焦“做什么”而非“怎么做”: 开发者专注于期望的结果(“what”),将实现细节(“how”)交给 AI。这样可以快速原型化,探索不同方法,而不被样板代码拖累。
  • 可选的记忆库: 为在更长互动中维持上下文,开发者可以使用“memory banks(记忆库)”来存储关键信息、偏好或约束。例如,开发者可以将特定编码风格或项目需求保存到 AI 的记忆中,从而确保后续代码生成在既定“vibe”下保持一致,而无需重复指令。

随着 GPT-4、Claude 和 Gemini 等强大 AI 模型在开发环境中的集成,氛围式编程正日益流行。这些工具不仅是在自动补全代码;它们正在积极参与软件开发的创意过程,使其更加易用且高效。这种全新的工作方式正在改变软件工程的本质,更强调创造力和高层思维,而不是对语法和 API 的机械记忆。

关键点

  • AI 智能体正从简单自动化进化到通过图形用户界面以类似人类的方式对软件进行可视化操控。
  • 下一个前沿是与现实世界的交互,诸如 Google 的 Astra 等项目通过摄像头和麦克风去看、去听、去理解其物理环境。
  • 领先的科技公司正在融合这些数字与物理能力,打造能够在两大领域无缝运作的通用 AI 助手。
  • 这一转变正在催生新一类积极主动、具备上下文感知能力的 AI 伙伴,能够在用户的日常生活中处理大量任务。

总结

智能体正在经历重大转变,从基础自动化迈向能够与数字与物理环境进行复杂交互的形态。通过利用视觉感知来操作图形用户界面,这些智能体如今可以像人类一样操控软件,从而绕过对传统 API 的依赖。各大技术实验室正引领这一领域,推出能够在用户桌面上直接自动化复杂的跨应用工作流的智能体。与此同时,下一前沿正在扩展到物理世界,例如 Google 的 Project Astra 通过摄像头和麦克风与周围环境进行情境化互动。这些先进系统被设计用于多模态、实时理解,以模拟人类的交互方式。

最终愿景是将这些数字与物理能力融合,打造在用户所有环境中无缝运行的通用 AI 助手。这一演进也通过“vibe coding”重塑软件创作方式,即开发者与 AI 之间更直观、对话式的协作。此新方法强调高层目标与创意意图,使开发者得以聚焦期望结果而非实现细节。这样的转变通过将 AI 视为创意伙伴来加速开发并激发创新。归根结底,这些进步正为一个全新时代铺路:主动、具情境感知的 AI 伙伴,能够在我们日常生活中协助处理海量任务。

参考资料

  1. Open AI Operator, openai.com/index/intro…
  2. Open AI ChatGPT Agent: openai.com/index/intro…
  3. Browser Use: docs.browser-use.com/introductio…
  4. Project Mariner, deepmind.google/models/proj…
  5. Anthropic Computer use: docs.anthropic.com/en/docs/bui…
  6. Project Astra, deepmind.google/models/proj…
  7. Gemini Live, gemini.google/overview/ge…
  8. OpenAI's GPT-4, openai.com/index/gpt-4…
  9. Claude 4, www.anthropic.com/news/claude…