LLM Agent Survey(综述分析)| 豆包 MarsCode AI 刷题

370 阅读16分钟

参考论文:arxiv.org/pdf/2309.07…

名词解释

  • 语言模型:一种条件概率模型,它利用输入来预测下一个标记
  • 智能体/代理 Agent
    • 定义
      • 哲学领域:具有欲望、信念、意图以及采取行动能力的实体
      • 人工智能领域:描述展示智能行为并具备自主性、反应性、主动性和社会能力等特质的实体
  • 基于 LLM 的代理框架
    • 核心组成:
      • 大脑 brain:Agent 的核心,不仅存储重要的记忆、信息和知识,还承担着处理信息、决策、推理和规划等基本任务,决定代理能否表现出智能行为的关键因素
      • 感知 perception:Agent 的感觉器官,从仅包含文本的感知空间扩展到包含多种感官模态的空间,使代理能够更好地感知来自外部环境的信息
      • 行动 action:动作模块,比如能够拥有文本输出能力、执行身体动作并使用工具,以便更好地响应环境变化并提供反馈,甚至改变和塑造环境

Agent 研究中的技术趋势

符号代理 Symbolic Agents

逻辑规则和符号表示来封装知识并促进推理过程,旨在模拟人类的思维模式。他们具有明确且可解释的推理框架,由于其符号性质,表现出高度的表达能力。

  • 关注点:转录问题和表示/推理问题
  • 典型应用:知识基础专家系统
  • 缺点:对于处理不确定性强且大规模的现实世界问题,很难找到一种能够在有限时间内产生有意义结果的有效算法

反应型代理 Reactive agents

主要关注代理与其环境之间的相互作用,并强调快速、实时的响应,这种代理的设计优先考虑直接的输入输出映射,通常需要更少的计算资源,从而实现更快的响应速度,但可能缺乏复杂的高层决策和规划能力。

  • 关注点:代理与其环境之间的相互作用,强调快速、实时的响应
  • 缺点:缺乏复杂的高层决策和规划能力。

基于强化学习的代理 Reinforcement learning-based agents

使用强化学习方法来训练代理,使其能够应对更具挑战性和复杂性任务

  • 关注点:如何使代理能够通过与环境的交互来学习,使其能够在特定任务中获得最大累积奖励
  • 典型应用:AlphaGo、DQN,游戏(如《星际争霸》中,通过学习玩家的操作习惯和战术策略,实时调整自己的游戏行为,从而与玩家进行更加智能和有趣的互动)
  • 缺点:需要大量的样本和长时间的训练,并且缺乏泛化能力

具有迁移学习和元学习的代理 Agents with transfer learning and meta learning

引入了迁移学习来加速代理在新任务上的学习,减少了在新任务上进行训练的负担,并促进了知识在不同任务之间的共享和迁移,从而提高了学习效率、性能和泛化能力。

此外元学习专注于学习如何学习,使代理能够从少量示例中快速推断出针对新任务的最优策略

  • 关注点:利用已获得的一般知识和策略迅速调整其学习方法,从而减少对大量样本的依赖
  • 典型应用:?
  • 缺点:当源任务与目标任务之间存在重大差异时,迁移学习的有效性可能会低于预期,并且可能存在负迁移

基于大语言模型的代理 Large language model-based agents

使用 LLM 作为这些代理的大脑或控制器,并通过多模式感知和工具利用等策略扩展它们的感知和行动空间,它们具有自然语言理解和生成能力,因此可以无缝地相互交互,从而导致多个代理之间的协作和竞争。

  1. 可以通过诸如连锁思维(CoT)和问题分解等技术展示与符号型代理相当的推理和规划能力
  2. 可以通过从反馈中学习并执行新操作来获得与环境互动的能力,就像反应式代理一样
  3. 可以在不需要更新参数的情况下无缝地在任务之间转移(LLM 预训练)
  • 关注点:
  • 典型应用:Auto-GPT

LLM Agent

脑部、感知、行动

由三个组件组成:大脑、感知和行动。

脑部 brain

运行机制

  1. 核心基础:自然语言交互的能力
    • 关键实现:LLM 大模型(GPT series、LLaMA series、T5 series)
    • 形式:多轮对话(对话历史、采取行动、自然语言响应)
    • 挑战:涉及模糊指令或其他含义,很难将隐含的意思形式化为奖励函数,并选择与说话者偏好一致的选项
  2. 在接收到感知模块处理后的信息后,大脑模块首先转向存储从知识中检索并从记忆中回溯【内存】
    • 知识:语言知识、常识知识、专业领域知识等(难点在于过时知识、错误知识导致的幻觉问题)
    • 记忆内存:记忆机制帮助代理有效地重新访问和应用先前的策略,使个体能够通过借鉴过去的经历来适应陌生的环境
      • 关键考量:历史记录长度、相关记忆中提取相关信息的困难
      • 存储增强方法:增加 Transformer 长度限制、总结记忆、使用向量或数据压缩内存
      • 检索方法:自动检索记忆(考虑新鲜度、相关性和重要性)
  3. 代理人制定计划【规划】、推理和做出明智的决策。
    • 推理:基于证据和逻辑的推理(演绎、归纳和类比)
      • 增强推理:CoT、self-consistency、self-polish、self-refine、selection-inference
    • 规划:面对复杂挑战时采用的关键策略
      • 核心:规划核心在于推理能力,通过推理,代理将复杂的任务分解为更易管理的子任务,并为每个子任务制定适当的计划
      • 阶段:计划制定(分层子任务)、计划反思(改进他们的策略和规划方法[)
  4. 大脑模块还可以以摘要、向量或其他数据结构的形式记住代理人的过去观察、想法和行动。同时,它也可以更新常识和领域知识等知识,以便将来使用。基于 LLM 的代理还可以利用其固有的泛化和迁移能力适应不熟悉的场景
    1. 未见过任务的一般化:不需要针对特定任务进行额外训练就可实现零样本一般化
      • 方法:
        • 模型大小和语料库大小的增加【语言模型获得基于自身理解遵循指令来完成 zero-shot】
        • 多任务学习【FLAN、T0】
    2. 上下文学习(ICL):通过将原始输入与几个完整的示例连接起来作为提示来增强语言模型的预测性能,模型能够从语境中的一些示例中学习
      • 关键思想:从类比中学习
      • 优点:ICL 不涉及微调或参数更新,这大大降低了为使模型适应新任务而进行计算的成本
    3. 持续学习

感知 perception

使基于语言模型的代理获得多模态感知能力,包括文本、视觉、听觉等多模态感知方式

  • textual input 文本输入:基于语言模型的代理已经具备了通过文本文本输入和输出与人类进行基本交流的能力,但仍然很难理解文本输入中的隐含意义
  • visual input 视觉输入:
    • 图像字幕生成:对输入图像生成相应的文本描述
      • 优点:高度可解释不需要为标题生成进行额外训练
      • 缺点:缺乏语义准确性(通常由人工创建,为短语而不是具体句子,与输入图像相关联的标题数量有限),丢失大量潜在信息,无法充分捕捉所有重要的视觉元素。此外,代理人对图像的关注可能会引入偏见
    • 基于 transformer 的图像编码:比如基于 ViT 的视觉编码与 LLM 结合,同时它们之间需要可学习接口层,完成图像编码到 LLM 能够理解的嵌入的转换
      • 常见可学习接口层:图像(BLIP、InstructBLIP、Q-Former)、视频=图像帧+时间维度(Flamingo)
      • 缺点:需要大量的计算资源(在训练过程中 冻结编码器 或 LLM 中的一个或两个可以实现资源和模型性能之间的权衡)
  • auditory input 听觉输入:将 LLM 用作控制中心,以级联方式调用现有工具集或模型存储库来感知音频信息
    • 音频工具集:FastSpeech、GenerSpeech、Whisper...
    • 特殊方法:将视觉领域的感知方法迁移到音频领域,以有限长度的音频光谱图可视化为平铺图像作为输入来进行编码(通过添加相同的学习接口层,它们使音频编码与来自其他模态的数据编码对齐)
  • 其他输入:触觉,嗅觉,感知周围环境的温度、湿度和亮度,用户的手势或移动光标,增强现实和虚拟现实设备中的眼动追踪技术,人体动作捕捉技术,脑机交互中的脑电波信号等技术

行动 action

动作模块接收来自大脑模块发送的动作序列并执行动作以与环境互动

  • 文本输出:基于 LLM 的代理可以成为非常强大的语言生成器
  • 工具使用与集成:借助工具完成任务的代理表现出更强的可解释性和鲁棒性,工具的执行过程可以反映代理解决复杂要求的方法并增强其决策的可信度。此外,因为工具是为其各自的用例场景量身设计的,利用此类工具的代理更好地处理了轻微的输入更改并且更能抵抗对抗攻击。
    • 步骤:
      1. 集成工具
      2. 理解工具(学习描述工具功能和参数的零样本提示或提供特定工具用例演示和相应方法的少样本提示来获取有关工具的知识)
      3. 学习使用工具(从演示中学习和从反馈中学习,包括模仿人类专家的行为,理解他们行为的结果,并根据来自环境和人类的反馈进行调整。 环境反馈包括行动是否成功完成任务的结果反馈,以及捕获由动作引起的环境状态变化的中间反馈; 人类反馈包括明确的评价和暗示的行为,例如点击链接)
    • 作用
      1. 扩展基于语言模型的代理的动作空间 eg. 使用科学工具执行诸如化学有机合成的任务
      2. 扩展语言模型的功能,让它们的输出不仅限于文本。eg. 在机器人领域,需要代理来规划物理操作并控制机器人执行
  • 身体行为:在特定领域任务中,能够主动感知、理解并交互物理环境,做出决策,并根据 LLM 的广泛内部知识生成具体行为以修改环境
    • 具身智能体:将模型智能与物理世界相结合,被认为是通向 AGI 的关键范式。
    • LLM 对探索代理的实体行为的优势:
      • 利用预训练获得的丰富内部知识,缓解 RL 算法难以对动态且常常模糊的真实环境进行建模,或者它们严重依赖于精确的奖励信号表示在数据效率、泛化能力和复杂问题推理方面面临的问题
      • 成本效率方面,LLM Agent 会联合训练机器人数据与通用视觉语言数据,从而在嵌入式任务中实现显著的迁移能力,并展示几何输入表示可以提高训练数据效率【PaLM-E】;而不是像 RL 中需要不断新鲜的数据来更新策略
      • 身体动作泛化方面,LLM 展示了显著的任务间泛化能力【PaLM-E、SayCan、Voyager】;而不是像大多数强化学习算法都是为训练和评估特定任务的相关技能而设计的
      • 身体动作规划方面,引入了层次强化学习 (HRL) 方法,其中高级策略为低级策略提供子目标,而低级策略产生适当的行动信号,具有新兴推理能力的语言模型可以无缝地应用于零样本或少量样本的复杂任务。根据当前的环境反馈,一些工作动态生成、维护和调整高级行动计划,以最小化对部分可观测环境中先前知识的依赖,从而实现计划的落地
    • 基于 LLM 的代理执行实体行动
      • 观察:推断环境信息
      • 操纵:包括物体重新排列、桌面操纵和移动操纵等【AlphaBlock、DEPS】
      • 导航:使代理能够在环境中动态改变其位置【LM-Nav、Smallville、Voyager】

实践中的代理人

Single-Agent

单代理部署,具有多种能力,并且可以在各种应用场景中表现出色

任务导向部署

代理遵循来自用户的高级指令,承担分解目标、子目标序列规划、环境交互探索等任务,直到达到最终目标。

  • 网络场景:能够理解复杂的网络环境中的指令,适应变化(例如,嘈杂的文本和动态 HTML 网页),并概括成功的操作(例如,填写表格、在线购物和发送电子邮件等)【Mind2Web、WebGum】
  • 生活场景:代理人必须理解隐含的指令并应用常识知识,为了在交互过程中为代理提供全面的情境信息,一些方法直接将空间数据和项目位置关系作为模型的附加输入,这使得代理能够精确地描述其周围环境【PET】

创新导向部署

在更具智力要求的领域,如尖端科学中,代理的潜力尚未得到充分实现

  • 面临挑战
    • 学固有的复杂性构成了重大障碍。许多专业术语和多维结构很难用单一文本表示,它们完整的属性无法完全封装,大大降低了代理的认知水平
    • 科学领域的合适训练数据严重不足,使得代理难以理解整个领域的知识

生命周期导向部署

在开放、未知的世界中构建一个能够不断探索、开发新技能并保持长期生命周期的通用代理,能够在没有人类干预的情况下自主探索和适应未知环境。

Agent-Agent

多代理部署,通过合作或对抗的方式实现进步

  • 思想来源:多智能体系统 Multi-agent systems
  • 基于 LLM 的 MAS 的优势
    • 通过分工,代理人处理特定任务的技能得到了越来越精细的划分(配备了专门技能和领域知识的单一代理可以从事特定的任务)
    • 复杂任务分解为多个子任务可以消除在不同进程之间切换所花费的时间

合作多智能体

每个智能体评估其他智能体的需求和能力,并主动寻求与他们协作行动和信息共享

  • 通信方式:自然语言
  • 无序合作:当系统中有三个或更多的代理人时,每个代理都可以自由地公开表达他们的观点和意见
    • 特点:过程是不受控制的、没有特定顺序的,没有引入标准化的合作流程
    • 典型代表:ChatLLM
    • 潜在风险:如果没有设置相应的规则,多个代理之间的频繁交互可能会无限放大微小的幻觉
  • 有序合作:系统中的代理遵循特定的规则。例如,以序列方式逐个表达他们的观点,下游代理只需关注上游代理的输出。这显著提高了任务完成效率,整个讨论过程高度组织化且有序
    • 典型代表:CAMEL、AgentVerse、MetaGPT

对抗性交互

向系统引入博弈论的概念,在竞争环境中,代理人可以通过动态交互迅速调整策略,努力选择对其他代理引起的变化做出反应的最有利或最合理的操作

  • 典行代表:多智能体裁判团队 ChatEval
  • 面临问题
    • 长时间辩论后,LLM 的有限上下文无法处理整个输入
    • 多 Agent 协商可能会收敛到错误的一致性,而所有代理都坚定地相信其准确性

Agent-Human

人机交互,人的反馈可以使代理更有效地执行任务并提供更好的服务

不平等交互范式 —— 教师执行者

人类充当指令发布者,而代理充当执行者,在合作中基本上充当人类的助手

  • 定量反馈:包括绝对评价(例如,二元评分(正面和负面)、评级)和相对评分
  • 定性反馈:人类会提供建议,告诉代理人如何修改其生成的输出,然后代理将其包含在后续输出中,通常以自然语言的形式
  • 应用领域:教育领域(写作、语义分析、教学)、医学领域(诊断辅助、会诊)【LISSA】

平等合作范式

  • 关键
    • 需要有移情能力,具有共情能力的代理可以根据用户的情感需求来调整他们的互动方式。
    • 需要有沟通能力,在沟通中需要了解他人的信仰、目标和意图
    • 需要有说服力,可以在各种交互式场景中动态地影响人类的观点

代理社会

后续部分以讲故事为主,无太多知识点,建议参考原文(注:链接在开头)

行为与性格

社会环境

社会模拟