AGUVIS：指导模型实现 GUI 自动化训练框架，结合视觉-语言模型进行训练，实现跨平台自主 GUI 交互

2025-01-01 185 阅读4分钟

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：mp.weixin.qq.com/s/jVlCvOHDy…

🚀 快速阅读

功能：跨平台自主 GUI 交互，结合自然语言指令与视觉元素关联。
技术：采用纯视觉框架和统一动作空间，结合视觉-语言模型进行训练。
应用：适用于自动化测试、虚拟助手、业务流程自动化等场景。

正文（附运行示例）

AGUVIS 是什么

公众号: 蚝油菜花 - aguvis

AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架，专为自主 GUI 智能体设计，能够在各种平台（如网页、桌面、移动设备）上操作。该框架基于图像观察和自然语言指令与视觉元素的关联，采用一致的动作空间实现跨平台泛化。

AGUVIS 结合显式规划和推理，增强代理在复杂数字环境中的自主导航和交互能力。通过大规模数据集和两阶段训练流程，AGUVIS 在离线和在线场景中超越了现有方法的性能，成为首个不依赖外部闭源模型独立完成任务的纯视觉 GUI 代理。

AGUVIS 的主要功能

跨平台自主 GUI 交互：在不同平台（如网站、桌面和移动设备）上自主执行 GUI 任务。
图像观察与自然语言指令关联：将自然语言指令映射到视觉界面元素，实现基于图像的交互。
显式规划与推理：集成规划和推理能力，让代理能够分析环境并生成有效的操作步骤。
大规模数据集构建：创建包含多模态推理和基础的大规模 GUI 代理轨迹数据集。

AGUVIS 的技术原理

纯视觉框架：采用纯视觉方法，将界面观察统一为图像，将指令基础到图像坐标，提高跨环境的泛化能力。
统一动作空间：用标准化的动作空间和插件系统，在不同平台间进行一致的学习与交互。
视觉-语言模型（VLM）：VLM 作为基础，如 Qwen2-VL，处理任意分辨率的高分辨率图像，并动态转换为视觉令牌。
两阶段训练范式：
- 第一阶段：基础训练：专注于使模型理解和与单个 GUI 截图中的对象交互。
- 第二阶段：规划与推理训练：在基础训练的基础上，引入更复杂的决策制定和推理过程，基于多样化的代理轨迹数据训练模型。
内省式独白（Inner Monologue）：在训练中生成详细的内省式独白，包含观察描述、思考和低级动作指令，模拟代理的思考过程、提升其规划能力。
插件系统：为不能直接映射到现有动作空间的动作提供灵活性，让模型能够适应新环境和任务。

如何运行 AGUVIS

安装

克隆仓库：

git clone git@github.com:xlang-ai/aguvis.git
cd aguvis

创建并激活 conda 环境：

conda create -n aguvis python=3.10
conda activate aguvis

安装 PyTorch 和依赖：

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -e .

数据准备

第一阶段：基础训练：
- 从 aguvis-stage1 下载数据集。
- 按照 data/stage1.yaml 中定义的结构放置数据。
第二阶段：规划与推理训练：
- 从 aguvis-stage2 下载数据集。
- 按照 data/stage2.yaml 中定义的结构放置数据。

训练

配置训练设置：
- 打开 scripts/train.sh。
- 设置 SFT_TASK 变量以指定训练阶段。
开始训练：

bash scripts/train.sh

资源

项目官网：aguvis-project.github.io/
GitHub 仓库：github.com/xlang-ai/ag…
arXiv 技术论文：arxiv.org/pdf/2412.04…

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦