A Survey on Large Language Model-Based Game Agents

15 阅读6分钟

arxiv.org/pdf/2404.02…

一 记忆系统

记忆分为工作记忆长期记忆

image.png

1、工作记忆(短期)

  • 定义:有限容量的临时缓冲,负责当前步骤的信息处理与跨步骤协同,对应 LLM上下文窗口+ 辅助机制。

  • 核心挑战:容量不足、时序不一致、短期遗忘。

  • 三大关键机制

    1. 上下文扩展:通过位置编码调整(PI、YaRN、LongRoPE)、注意力重构(PCW、PoSE),扩大有效上下文长度,容纳更多近期信息。
    2. 记忆压缩:软令牌压缩、多级摘要、语义聚类,精简冗长输入,保留关键信息,突破容量限制。
    3. 主动维持:显式保留上一步推理轨迹、子目标,避免决策短期漂移与动作矛盾,提升决策稳定性。

2、长期记忆(持久)

  • 定义:跨回合、跨场景的持久存储,积累经验与知识,超越工作记忆限制,多通过外部存储(向量库、知识图谱)或参数化存储实现。

  • 核心挑战:何时固化、如何组织、如何高效检索。

  • 三大核心流程

    1. 记忆固化:决定将工作记忆内容存入长期存储,触发条件包括事件边界、重要性评分、任务成功、学习型控制器决策。
    2. 记忆结构化:组织存储形式,包括文本块、键值对、树形结构、图结构、参数化存储,适配不同检索与复用需求。
    3. 记忆检索:方式包括元数据检索(时间、重要性)、语义检索(向量相似度)、图 / 树遍历检索、参数化隐式检索。

image.png

二 推理机制

分为指令引导推理微调优化推理两大类

  • 把语言思考转化为中间步骤、计划、反思,让决策更稳定、可解释。
  • 解决 LLM 直接输出动作易出错、前后矛盾、无法长期规划的问题。

1、第一类:指令引导推理

  1. 思维链(CoT) 让模型先分步思考再行动,是最基础的推理方式。但容易错误传播,一步错步步错。
  2. 基于搜索的推理 同时生成多条推理路径,用投票 / 择优 / 树 / 图结构选最优,提升鲁棒性,减少随机错误。
  3. 反思式推理 基于环境反馈(成功 / 失败)自我修正,从错误中学习,从成功中总结,让智能体越玩越强。

image.png

2、第二类:微调优化推理

  1. 监督微调
  2. 强化学习(RL)
  3. RLHF等

三 感知与动作接口

感知接口负责输入:把游戏环境信息转成 LLM 能处理的形式

动作接口负责输出:把 LLM 的语言决策转成游戏能执行的操作

image.png

1、感知接口

按输入信息类型分为三类:

  1. 文本观测 游戏直接给自然语言描述,LLM 可直接用,简单但仅限文字游戏。
  2. 符号观测 用 API 读取结构化数据(血量、坐标、物品、状态),转成文本提示,高效但可能丢失细节。
  3. 视觉观测 处理游戏画面:用目标检测、CLIP 转文字描述,或用多模态 LLM 直接看图,适配 3D 大作,但复杂度更高。

2、动作接口

按操作粒度分为三类:

  1. 高级动作 语义化指令(开门、攻击、交换),适合策略 / 文字游戏,需要约束输出保证合法。
  2. 低级动作 键盘、鼠标、摇杆等底层控制,需要配合路径规划或强化学习控制器。
  3. 代码化动作 输出可执行代码 / API 调用,精准、可验证、可复用,最适合沙盒游戏(如 Minecraft)。

四 多智能体 LLM 游戏智能体框架

1. 通信协议

  • 消息生成:分为三类

    1. 观测信息:直接分享看到的环境状态
    2. 信念信息:分享自己对局势的判断
    3. 意图信息:告诉队友自己要做什么,避免冲突与重复
  • 消息理解:接收信息后整合到自身记忆与决策,解决信息冲突,通过辩论、贝叶斯更新等达成共识。

2. 组织结构

  • 组织拓扑

    • 集中式:一个中心指挥,高效但有瓶颈
    • 去中心化:各自决策 + 局部通信,鲁棒但难协同
    • 分层式:上层定目标、下层执行,平衡效率与灵活
    • 分区式:大世界分片管理,支持超大数量智能体
  • 任务与角色分配

    • 预定义:开局就固定角色,稳定但不灵活
    • 动态分配:边玩边调整,适应性强
    • 涌现分工:大量智能体自由交互,自然出现职业分化(如矿工、农民)

五 游戏分类

  1. 动作游戏(如街机、FPS、格斗) 核心挑战:低延迟控制:LLM 推理快、实时反应强,常用 “LLM 做高层决策 + RL 做底层操控”。
  2. 冒险游戏(如文字冒险、解谜) 核心挑战:有状态的世界建模
  3. 角色扮演游戏(RPG、狼人杀、阿瓦隆) 核心挑战:角色保真度,解决 “角色漂移” 问题。
  4. 策略游戏(象棋、扑克、星际) 核心挑战:对手感知规划推理对手意图、隐藏信息、多步预判
  5. 模拟游戏(模拟人生、社会模拟) 核心挑战:真实世界保真度:行为像人、社会逻辑合理
  6. 沙盒游戏(我的世界、沙盒生存) 核心挑战:开放式目标推进:自己定目标、拆解任务、长期探索、技能可复用。

六 挑战

1、记忆系统

  • 现有记忆只是存信息、取信息,不是真正理解世界。
  • 未来需要世界模型式记忆
  • 关键方向:预测动力学(预测未来)、结构化组合(知识像积木一样能拼接、能迁移、能举一反三)、选择性遗忘。

2、推理机制

  • 当前推理依赖数值奖励(+1、-10、赢了 = 1、输了 = 0),和 LLM 的语言推理不匹配。
  • 缺少细粒度、语义化的反馈,只有最终结果,没有过程指导
  • 未来要让智能体像人一样,用自然语言理解对错,类似LLM的训练过程。

3、感知–动作接口

  • 感知和动作没有协同设计,信息冗余、执行低效。
  • 感知抓不到决策关键信息,动作不能保证稳定合法。
  • 未来需要端到端对齐的感知–动作闭环。

4、多智能体系统

  • 所谓 “涌现行为”(分工、规则、文化)大多依赖人工设定,不是真正自发形成。
  • 大规模智能体仿真难以复现、缺少标准平台
  • 未来需要更自治、可扩展、可稳定运行的多智能体社会系统

5、游戏环境与评测

  • 缺少细粒度、可诊断的评价指标,只看成功率不够。
  • 未来需要更复杂、长周期、高真实度的游戏评测基准