一 记忆系统
记忆分为工作记忆与长期记忆。
1、工作记忆(短期)
-
定义:有限容量的临时缓冲,负责当前步骤的信息处理与跨步骤协同,对应 LLM上下文窗口+ 辅助机制。
-
核心挑战:容量不足、时序不一致、短期遗忘。
-
三大关键机制
- 上下文扩展:通过位置编码调整(PI、YaRN、LongRoPE)、注意力重构(PCW、PoSE),扩大有效上下文长度,容纳更多近期信息。
- 记忆压缩:软令牌压缩、多级摘要、语义聚类,精简冗长输入,保留关键信息,突破容量限制。
- 主动维持:显式保留上一步推理轨迹、子目标,避免决策短期漂移与动作矛盾,提升决策稳定性。
2、长期记忆(持久)
-
定义:跨回合、跨场景的持久存储,积累经验与知识,超越工作记忆限制,多通过外部存储(向量库、知识图谱)或参数化存储实现。
-
核心挑战:何时固化、如何组织、如何高效检索。
-
三大核心流程
- 记忆固化:决定将工作记忆内容存入长期存储,触发条件包括事件边界、重要性评分、任务成功、学习型控制器决策。
- 记忆结构化:组织存储形式,包括文本块、键值对、树形结构、图结构、参数化存储,适配不同检索与复用需求。
- 记忆检索:方式包括元数据检索(时间、重要性)、语义检索(向量相似度)、图 / 树遍历检索、参数化隐式检索。
二 推理机制
分为指令引导推理和微调优化推理两大类
- 把语言思考转化为中间步骤、计划、反思,让决策更稳定、可解释。
- 解决 LLM 直接输出动作易出错、前后矛盾、无法长期规划的问题。
1、第一类:指令引导推理
- 思维链(CoT) 让模型先分步思考再行动,是最基础的推理方式。但容易错误传播,一步错步步错。
- 基于搜索的推理 同时生成多条推理路径,用投票 / 择优 / 树 / 图结构选最优,提升鲁棒性,减少随机错误。
- 反思式推理 基于环境反馈(成功 / 失败)自我修正,从错误中学习,从成功中总结,让智能体越玩越强。
2、第二类:微调优化推理
- 监督微调
- 强化学习(RL)
- RLHF等
三 感知与动作接口
感知接口负责输入:把游戏环境信息转成 LLM 能处理的形式
动作接口负责输出:把 LLM 的语言决策转成游戏能执行的操作
1、感知接口
按输入信息类型分为三类:
- 文本观测 游戏直接给自然语言描述,LLM 可直接用,简单但仅限文字游戏。
- 符号观测 用 API 读取结构化数据(血量、坐标、物品、状态),转成文本提示,高效但可能丢失细节。
- 视觉观测 处理游戏画面:用目标检测、CLIP 转文字描述,或用多模态 LLM 直接看图,适配 3D 大作,但复杂度更高。
2、动作接口
按操作粒度分为三类:
- 高级动作 语义化指令(开门、攻击、交换),适合策略 / 文字游戏,需要约束输出保证合法。
- 低级动作 键盘、鼠标、摇杆等底层控制,需要配合路径规划或强化学习控制器。
- 代码化动作 输出可执行代码 / API 调用,精准、可验证、可复用,最适合沙盒游戏(如 Minecraft)。
四 多智能体 LLM 游戏智能体框架
1. 通信协议
-
消息生成:分为三类
- 观测信息:直接分享看到的环境状态
- 信念信息:分享自己对局势的判断
- 意图信息:告诉队友自己要做什么,避免冲突与重复
-
消息理解:接收信息后整合到自身记忆与决策,解决信息冲突,通过辩论、贝叶斯更新等达成共识。
2. 组织结构
-
组织拓扑
- 集中式:一个中心指挥,高效但有瓶颈
- 去中心化:各自决策 + 局部通信,鲁棒但难协同
- 分层式:上层定目标、下层执行,平衡效率与灵活
- 分区式:大世界分片管理,支持超大数量智能体
-
任务与角色分配
- 预定义:开局就固定角色,稳定但不灵活
- 动态分配:边玩边调整,适应性强
- 涌现分工:大量智能体自由交互,自然出现职业分化(如矿工、农民)
五 游戏分类
- 动作游戏(如街机、FPS、格斗) 核心挑战:低延迟控制:LLM 推理快、实时反应强,常用 “LLM 做高层决策 + RL 做底层操控”。
- 冒险游戏(如文字冒险、解谜) 核心挑战:有状态的世界建模
- 角色扮演游戏(RPG、狼人杀、阿瓦隆) 核心挑战:角色保真度,解决 “角色漂移” 问题。
- 策略游戏(象棋、扑克、星际) 核心挑战:对手感知规划推理对手意图、隐藏信息、多步预判
- 模拟游戏(模拟人生、社会模拟) 核心挑战:真实世界保真度:行为像人、社会逻辑合理
- 沙盒游戏(我的世界、沙盒生存) 核心挑战:开放式目标推进:自己定目标、拆解任务、长期探索、技能可复用。
六 挑战
1、记忆系统
- 现有记忆只是存信息、取信息,不是真正理解世界。
- 未来需要世界模型式记忆
- 关键方向:预测动力学(预测未来)、结构化组合(知识像积木一样能拼接、能迁移、能举一反三)、选择性遗忘。
2、推理机制
- 当前推理依赖数值奖励(+1、-10、赢了 = 1、输了 = 0),和 LLM 的语言推理不匹配。
- 缺少细粒度、语义化的反馈,只有最终结果,没有过程指导。
- 未来要让智能体像人一样,用自然语言理解对错,类似LLM的训练过程。
3、感知–动作接口
- 感知和动作没有协同设计,信息冗余、执行低效。
- 感知抓不到决策关键信息,动作不能保证稳定合法。
- 未来需要端到端对齐的感知–动作闭环。
4、多智能体系统
- 所谓 “涌现行为”(分工、规则、文化)大多依赖人工设定,不是真正自发形成。
- 大规模智能体仿真难以复现、缺少标准平台。
- 未来需要更自治、可扩展、可稳定运行的多智能体社会系统。
5、游戏环境与评测
- 缺少细粒度、可诊断的评价指标,只看成功率不够。
- 未来需要更复杂、长周期、高真实度的游戏评测基准。