A Survey on Large Language Model-Based Game Agents

不会背八股

2026-05-19 15 阅读6分钟

arxiv.org/pdf/2404.02…

一记忆系统

记忆分为工作记忆与长期记忆。

1、工作记忆（短期）

定义：有限容量的临时缓冲，负责当前步骤的信息处理与跨步骤协同，对应 LLM上下文窗口+ 辅助机制。
核心挑战：容量不足、时序不一致、短期遗忘。
三大关键机制
1. 上下文扩展：通过位置编码调整（PI、YaRN、LongRoPE）、注意力重构（PCW、PoSE），扩大有效上下文长度，容纳更多近期信息。
2. 记忆压缩：软令牌压缩、多级摘要、语义聚类，精简冗长输入，保留关键信息，突破容量限制。
3. 主动维持：显式保留上一步推理轨迹、子目标，避免决策短期漂移与动作矛盾，提升决策稳定性。

2、长期记忆（持久）

定义：跨回合、跨场景的持久存储，积累经验与知识，超越工作记忆限制，多通过外部存储（向量库、知识图谱）或参数化存储实现。
核心挑战：何时固化、如何组织、如何高效检索。
三大核心流程
1. 记忆固化：决定将工作记忆内容存入长期存储，触发条件包括事件边界、重要性评分、任务成功、学习型控制器决策。
2. 记忆结构化：组织存储形式，包括文本块、键值对、树形结构、图结构、参数化存储，适配不同检索与复用需求。
3. 记忆检索：方式包括元数据检索（时间、重要性）、语义检索（向量相似度）、图 / 树遍历检索、参数化隐式检索。

二推理机制

分为指令引导推理和微调优化推理两大类

把语言思考转化为中间步骤、计划、反思，让决策更稳定、可解释。
解决 LLM 直接输出动作易出错、前后矛盾、无法长期规划的问题。

1、第一类：指令引导推理

思维链（CoT） 让模型先分步思考再行动，是最基础的推理方式。但容易错误传播，一步错步步错。
基于搜索的推理 同时生成多条推理路径，用投票 / 择优 / 树 / 图结构选最优，提升鲁棒性，减少随机错误。
反思式推理 基于环境反馈（成功 / 失败）自我修正，从错误中学习，从成功中总结，让智能体越玩越强。

2、第二类：微调优化推理

监督微调
强化学习（RL）
RLHF等

三感知与动作接口

感知接口负责输入：把游戏环境信息转成 LLM 能处理的形式

动作接口负责输出：把 LLM 的语言决策转成游戏能执行的操作

1、感知接口

按输入信息类型分为三类：

文本观测 游戏直接给自然语言描述，LLM 可直接用，简单但仅限文字游戏。
符号观测 用 API 读取结构化数据（血量、坐标、物品、状态），转成文本提示，高效但可能丢失细节。
视觉观测 处理游戏画面：用目标检测、CLIP 转文字描述，或用多模态 LLM 直接看图，适配 3D 大作，但复杂度更高。

2、动作接口

按操作粒度分为三类：

高级动作 语义化指令（开门、攻击、交换），适合策略 / 文字游戏，需要约束输出保证合法。
低级动作 键盘、鼠标、摇杆等底层控制，需要配合路径规划或强化学习控制器。
代码化动作 输出可执行代码 / API 调用，精准、可验证、可复用，最适合沙盒游戏（如 Minecraft）。

四多智能体 LLM 游戏智能体框架

1. 通信协议

消息生成：分为三类
1. 观测信息：直接分享看到的环境状态
2. 信念信息：分享自己对局势的判断
3. 意图信息：告诉队友自己要做什么，避免冲突与重复
消息理解：接收信息后整合到自身记忆与决策，解决信息冲突，通过辩论、贝叶斯更新等达成共识。

2. 组织结构

组织拓扑
- 集中式：一个中心指挥，高效但有瓶颈
- 去中心化：各自决策 + 局部通信，鲁棒但难协同
- 分层式：上层定目标、下层执行，平衡效率与灵活
- 分区式：大世界分片管理，支持超大数量智能体
任务与角色分配
- 预定义：开局就固定角色，稳定但不灵活
- 动态分配：边玩边调整，适应性强
- 涌现分工：大量智能体自由交互，自然出现职业分化（如矿工、农民）

五游戏分类

动作游戏（如街机、FPS、格斗） 核心挑战：低延迟控制：LLM 推理快、实时反应强，常用 “LLM 做高层决策 + RL 做底层操控”。
冒险游戏（如文字冒险、解谜） 核心挑战：有状态的世界建模
角色扮演游戏（RPG、狼人杀、阿瓦隆） 核心挑战：角色保真度，解决 “角色漂移” 问题。
策略游戏（象棋、扑克、星际） 核心挑战：对手感知规划推理对手意图、隐藏信息、多步预判
模拟游戏（模拟人生、社会模拟） 核心挑战：真实世界保真度：行为像人、社会逻辑合理
沙盒游戏（我的世界、沙盒生存） 核心挑战：开放式目标推进：自己定目标、拆解任务、长期探索、技能可复用。

六挑战

1、记忆系统

现有记忆只是存信息、取信息，不是真正理解世界。
未来需要世界模型式记忆
关键方向：预测动力学（预测未来）、结构化组合（知识像积木一样能拼接、能迁移、能举一反三）、选择性遗忘。

2、推理机制

当前推理依赖数值奖励（+1、-10、赢了 = 1、输了 = 0），和 LLM 的语言推理不匹配。
缺少细粒度、语义化的反馈，只有最终结果，没有过程指导。
未来要让智能体像人一样，用自然语言理解对错，类似LLM的训练过程。

3、感知–动作接口

感知和动作没有协同设计，信息冗余、执行低效。
感知抓不到决策关键信息，动作不能保证稳定合法。
未来需要端到端对齐的感知–动作闭环。

4、多智能体系统

所谓 “涌现行为”（分工、规则、文化）大多依赖人工设定，不是真正自发形成。
大规模智能体仿真难以复现、缺少标准平台。
未来需要更自治、可扩展、可稳定运行的多智能体社会系统。

5、游戏环境与评测

缺少细粒度、可诊断的评价指标，只看成功率不够。
未来需要更复杂、长周期、高真实度的游戏评测基准。