教案介绍:AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
THUDM/AutoWebGLM: An LLM-based Web Navigating Agent (KDD'24) (github.com)
课程概述
本课程将介绍AutoWebGLM项目,它致力于构建一个更高效的语言模型驱动的自动化网页导航代理。该项目基于ChatGLM3-6B模型,扩展其能力以更有效地导航网页并更好地应对现实世界的浏览挑战。通过学习该课程,学生将理解AutoWebGLM的基本原理、关键特性以及其在实际应用中的评价方法。
课程内容
1. 项目概述
- 项目背景和目标:理解AutoWebGLM的开发动机及其在网页导航领域的应用前景。
- 核心模型:介绍ChatGLM3-6B模型及其在AutoWebGLM中的角色。
2. 关键特性
- HTML简化算法:学习如何通过设计算法简化HTML,使其更易于LLM代理理解,同时保留关键信息。
- 混合人机训练:结合人类和AI的知识构建网页浏览数据进行课程训练,提升模型的实际导航技能。
- 强化学习与拒绝采样:通过强化学习和拒绝采样方法,增强模型对网页的理解、浏览操作和任务分解能力。
3. 双语网页导航基准
- AutoWebBench:介绍AutoWebGLM引入的双语(中文和英文)基准,用于测试和优化AI网页导航代理的能力。
4. 评价方法
- 评估代码与数据公开:讲解如何使用公开的评估代码、数据和环境进行实验,具体步骤包括:
- 使用AutoWebBench和Mind2Web数据集。
- 参考ChatGLM3-6B进行模型推理。
- 通过运行
python eval.py [result_path]获得评分。
5. 环境修改与适配
- WebArena:介绍对WebArena环境的修改及其执行指令,帮助学生理解如何适配与AutoWebGLM系统的交互。
- MiniWob++:学习对MiniWob++环境的修改及其执行指令。
学习目标
- 理解AutoWebGLM的基本概念和开发背景。
- 掌握HTML简化算法及其应用。
- 熟悉混合人机训练和强化学习在模型训练中的作用。
- 能够使用AutoWebBench进行模型评估。
- 了解对WebArena和MiniWob++环境的修改和适配方法。
教学方法
- 理论讲解:通过PPT和视频资料介绍AutoWebGLM的理论基础。
- 实践操作:指导学生使用评估代码和数据进行实际操作,体验模型推理和评估的全过程。
- 讨论与答疑:通过课堂讨论和问答环节,解答学生在学习过程中遇到的问题。
课程资源
- AutoWebGLM项目主页
- ChatGLM3-6B模型文档
- AutoWebBench与Mind2Web数据集
- WebArena与MiniWob++环境及其修改说明
通过本课程的学习,学生将深入了解AutoWebGLM项目的核心技术和应用方法,为未来在自动化网页导航领域的研究和开发奠定坚实基础。