发现一篇非常好的AI Memory综述！LLM本质上是无状态的，无法利用历史信息优化后续决策，因此需要引入记忆模块（Me

文章地址：baijia.online/homepage/me…

以下是个人对这篇论文的翻译和解读，关于“Evaluation”部分我没写，感兴趣的朋友可以去看原文~

LLM本质上是无状态的，它将每次交互视为孤立事件，无法利用历史信息优化后续决策，因此需要引入记忆模块（Memory）。记忆让人工智能系统能够留存历史交互信息、存储上下文数据，并基于历史记忆优化未来行为，从而实现从 “一次性任务执行” 到持续自主进化的跨越。

生物学上的Memory

阿特金森–希夫林三存储模型（Atkinson–Shiffrin Tri-Store Model）

经典的阿特金森-希夫林模型将人类记忆抽象为三个相互作用的存储系统：

感觉记忆是针对各感官的极短时缓冲器，其中视觉图像记忆约持续半秒，听觉声像记忆可维持数秒，它能捕获高保真的瞬时快照，让知觉呈现出连续性；
短时记忆 （ 工作记忆 ）是一个专注的心理工作空间，仅能主动维持少量信息（约 4 个有意义的信息组块），若不通过复述或组块加以维持，信息仅能保留数秒；
长时记忆是我们所掌握知识与人生经历的庞大知识库，包含事实、个人事件与技能，按语义与关联进行组织，可保存数天至数十年。

这些存储系统由注意、复述、提取等控制过程进行协调。感觉记忆首先在特定感官的登记器中捕获原始输入；随后，选择性注意将一小部分信息提取到短时记忆中，这些信息可在短时记忆中保持数秒的活跃状态，并通过复述与组块进行重组；通过维持性复述以及将新信息与已有知识关联的精细编码，部分内容被存入长时记忆；之后，提取线索会将信息从长时记忆召回短时记忆，以指导思维与行为——成功的调用会强化联结，失败则会促使重新编码。

总而言之，该模型将记忆描述为一系列连续阶段：短暂的感觉痕迹、有限容量的短时工作空间，以及持久的长时存储，各阶段由可调控的认知过程相互连接。

工作记忆模型

阿特金森-希夫林模型把短期记忆看作一个简单的暂存格，信息进来，短暂停留，然后要么被遗忘，要么转入长期记忆。这个解释听起来合理，但它有个明显的问题：如果短期记忆只是单一的暂存格，我们为什么能同时做多件事？边开车边听广播、边做笔记边听课——这些事情在一个"单格"模型里很难被解释清楚。

因此，心理学家巴德利与希奇提出了工作记忆 模型，把这个暂存格改造成了一套分工明确的系统。工作记忆由三个部分构成：

中央执行系统：这是整个系统的调度中心。它不直接存储信息，而是决定注意力该放在哪里、资源如何分配。当你需要同时处理多项任务时，协调工作就由它负责。但它的容量是有限的，一旦超载，表现就会下降。
语音环路： 专门处理语言和声音信息。背诵一串数字时在心里默默复读，就是这个模块在运作。它依赖内部的"默读"机制来维持信息，停止复读，信息很快就会消散。
视觉空间速写板： 负责处理图像和空间信息。想象一条路线、在脑海中旋转一个物体，都是它的工作范围。

但是这三模块模型有一个问题：语音环路和视觉空间速写板产生的信息，如何与我们已有的长期知识结合起来呢？为了填上这个空缺，巴德利后来引入了第四个模块：情景 缓冲器。它充当一块临时的整合平台，把来自语音环路的语言信息、视觉空间速写板的图像信息，以及从长期记忆中调取的背景知识，拼接成一个连贯的"当前场景"。这个场景是可以被意识感知的，你可以对它进行思考、推理和判断。

这一补充打通了灵活的工作记忆加工过程与固化的长时知识之间的壁垒，使中央执行系统能够对整合后的情景进行操作，从而支持学习、推理与规划。

互补学习系统理论

作为计算神经科学领域的重要理论，互补学习系统理论[106] 将大脑的记忆架构抽象为海马体与大脑皮层之间协同配合的双系统结构。

海马体充当快速编码器与索引器，能够迅速将新经历的各个片段绑定、标记，以便后续重新提取。
大脑皮层则作为深度存储系统，负责保存信息内容并以缓慢渐进的方式更新，以保护已有的知识不被覆盖。

海马体与大脑皮层的这种互补分工，使得新的情景可以被快速捕获，同时不会覆盖已有的知识。当新事件发生时，突触会像精密调节的旋钮一样发生调整，让特定神经通路更容易再次被激活。在海马体中，这种快速可塑性通过关联事件元素、区分相似经历来完成情景编码，让新记忆迅速获得暂时存储，并留下脆弱但可提取的痕迹，为后续加工做准备。

随后，在安静状态下，尤其是睡眠期间，海马体会以短脉冲的形式短暂重新激活近期经历，如同快速浏览关键片段。这些温和的记忆重放会激活大脑皮层中匹配的神经模式；经过不断重复，相同信息会以更平缓的节奏被再次固化，与已有知识并存，并变得更容易被调用。

两者的分工让大脑得以兼顾两种需求：新经历可以被快速捕捉，而长期积累的知识也得以保全。

AI中的“记忆”的边界

LLM 记忆 vs 智能体记忆 vs AI 记忆

LLM 记忆：构成预测的底层计算机制。它包含两种具体形态：嵌入在预训练模型权重中的参数记忆，以及通过上下文窗口管理的运行时记忆。正如 “记忆 vs 上下文” 部分所讨论的，这一层是基础计算支撑，优先保证有限窗口内即时生成的准确性，而非维持连贯的自主行为。

智能体记忆：在此基础上延伸为支持自主行为的功能工作流。它不再生成孤立文本，而是协调 “感知–规划–行动” 循环，使系统能够分解并执行复杂任务。通过将数据组织为过程式、陈述式、元认知式等不同格式，智能体记忆支持系统从历史中学习。这一层通过反思与策略优化，实现从静态记录到动态 “经验” 的转变，让智能体能够基于过往结果进化行为。

AI 记忆：是信息持久化与进化的最广义定义。它既包含人工认知的生物启发思路，也指向终身学习的最终目标。LLM 记忆提供预测引擎，智能体记忆管理面向任务的执行，而 AI 记忆则定义了终身进化与经验积累的框架，确保在多样化环境与长期交互中实现连续、自适应、符合人类偏好的生命周期。

记忆 vs 知识 vs 上下文 vs 经验

记忆 vs 知识：记忆是通过交互不断演化的动态存储，忆带有时间戳与上下文，会经过编码、更新等操作，体现时效性与个人相关性。与之相对，知识是为稳定性与复用性而固化的静态沉淀，聚焦于持久的事实与抽象规律，优先保证准确性与一致性。二者边界是可渗透的。经过验证的记忆可通过巩固、摘要、模式对齐提炼为知识；而知识反过来会通过引导注意力与优先级设定影响记忆形成。这种相互作用决定了：记忆需要保留、衰减、上下文关键词检索的策略，而知识需要治理与来源追踪。
记忆 vs 上下文：上下文主要指 LLM 的即时运行环境，它有固定的大小限制，专门用来放当前这次对话所需的内容，一旦对话结束就会清空。记忆则不同，它存在于单次对话之外，是系统层面持续保存的用户历史与交互信息，不会随每次推理的结束而消失。两者的分工是：当模型处理任务时，会把上下文窗口的内容整理后存入记忆；下次有新任务进来，再从记忆里把相关信息调出来放上上下文窗口，供模型参考推理。一个负责即时处理，一个负责长期留存，循环配合，共同维持对话的连贯性。
记忆 vs 经验：记忆是对具体交互的原始记录，忠实保存"发生过什么"，可以精确回溯，但本身不带多少可复用的价值。经验则是记忆被进一步加工后的产物——原始的事件痕迹经过提炼，变成了抽象的规律和可迁移的判断方式，让智能体不只是"记得某件事"，而是"懂得怎么处理类似的事"。两者之间存在一个转化过程：通过反思与整合，智能体把具体的情景记录压缩成更通用的认知策略，这些策略本身也可以重新存回记忆，作为可调用的知识资产。如此循环，智能体积累的不只是数据，而是持续扩展的应对能力。

AI Memory的分类

该综述构建了一套4W 记忆分类体系（即 When-What-How-Which），用于对人工智能记忆系统进行系统性归类，即：

When：记忆何时存在、能持续多久？该维度考察记忆的时间跨度，从瞬时输入缓冲到跨会话持久存储，回答人工智能智能体系统中记忆的持续时长问题。
What：记忆存储何种信息？借鉴认知科学，该维度按所存知识的性质对记忆分类，包括过程式技能、陈述性事实、元认知反思和个性化模型。
How：记忆如何表示与存储？该维度探讨记忆的技术实现方式，从模型权重内部的隐式参数化存储，到文本、向量、结构化图谱等显式外部表示。
Which：记忆处理何种信息格式？该维度按信息模态对记忆分类。单模态记忆仅处理文本数据（如文献摘要、对话历史）；多模态记忆则将文本与图像、音频、视频等异构格式融合（如图文配对记忆、音文同步记忆、视频 - 文本融合记忆）。

When：按记忆生命周期分类（时间维度）

分类	中文名称	认知类比	核心作用	典型实现	特点
Transient Memory	瞬时记忆	人类感官记忆	临时缓冲输入信号，预处理感知数据	KV Cache、实时视觉 / 音频输入缓冲区	易失性、不持久、高吞吐、无长期存储
Session Memory	会话记忆	人类工作记忆 / 短期记忆	维持当前任务上下文，保证推理连贯	LLM 上下文窗口、临时上下文缓存	会话内有效，结束即清空，支持即时推理
Persistent Memory	持久记忆	人类长期记忆	沉淀经验、用户偏好、知识、技能	外部数据库、向量库、模型权重、文件存储	可跨任务复用、支持长期进化、可显式读写

What：按记忆内容类型分类

分类	中文名称	存储内容	核心功能	认知类比	典型系统 / 案例	应用价值
Procedural Memory	过程记忆	技能、动作序列、工具调用、规划步骤	指导 "如何执行任务"	程序性知识（knowing-how）	Voyager 技能库、MemGPT 任务流程	提升执行效率、减少重复探索
Declarative Memory	陈述性记忆	事实、事件、观察记录、环境状态	记录 "发生了什么、世界是什么"	陈述性知识（knowing-what）	Generative Agents 记忆流、ReAct 环境观测	构建世界认知、支持事实推理
Metacognitive Memory	元认知记忆	反思、成败总结、策略评估、自我修正	实现 "自我改进、避免错误"	元认知、自我监控	Reflexion 反思机制、Memento 自我优化	让 Agent 从失败中学习、持续进化
Personalized Memory	个性化记忆	用户偏好、习惯、身份、角色、关系	提供 "个性化、一致化交互"	社会记忆、用户建模	ChatGPT Memory、MemoryBank、Mem0	跨会话个性化、提升用户体验

How：按存储方式分类

分类	子分类	中文名称	存储位置	表示形式	可读 / 可编辑	优点	缺点	典型系统
Implicit Storage	Parametric Memory	参数记忆	模型权重内部	神经网络参数	不可直接读 / 改	推理极快、无检索开销	难更新、易灾难性遗忘、不可解释	Toolformer、微调后领域模型
Latent Memory	隐空间记忆	模型隐层 / 隐向量	连续隐表示	不可直接读	能捕捉抽象关系、压缩高效	不直观、难调试、不可人工编辑	MemoRAG、MemoryLLM、M+
Explicit Storage	Raw Memory	原始记忆	模型外部	纯文本、原始日志	完全可读可写	信息无损、最易解释、与 LLM 天然兼容	检索效率低、占用 token 多	MemoryOS、AMem、Mem0 文本存储
Vector Memory	向量记忆	向量数据库	语义嵌入向量	间接可读	语义检索快、适合大规模记忆	存在信息压缩损失、不可直接编辑	RAG 系统、MemOS、Faiss 索引
Graph Memory	图谱记忆	图数据库	实体 - 关系图	可读可推理	擅长关系推理、多跳查询、结构清晰	构建成本高、维护复杂	Zep、Mem0g、Cognee、Neo4j 存储

Which：按模态类型分类

分类	中文名称	处理数据类型	核心能力	存储范式	优势	典型系统
Single-modal Memory	单模态记忆	仅文本（对话、日志、知识）	文本理解、长期对话、知识检索	文本 / 向量 / 图谱均可	计算高效、成熟稳定、资源占用低	MemoryOS、Zep、Mem0、LangChain Memory
Multimodal Memory	多模态记忆	文本 + 图像 + 音频 + 视频 + 时空信息	跨模态理解、时空推理、真实世界感知	1. 原始模态直接编码2. 转文本抽象	更贴近真实场景、支持具身智能	VideoAgent、EgoLife、M3-Agent、MovieChat、Optimus

单智能体和多智能体中的Memory

智能体记忆架构主要分为4 大类：

细分架构	核心设计思路	代表方案	关键优势 & 作用
分层记忆架构Hierarchical Memory	借鉴人类认知记忆模型，分层存储（短期层、长期层等） + 动态管理，解决大模型上下文窗口有限与长期存储需求的矛盾	HMT、H-MEM	多抽象层级分级管理；逐层检索，避免全局相似度计算，大幅提升大规模记忆检索效率
类操作系统记忆架构OS-like Memory	借鉴操作系统设计，设置存储单元，用分层存储（长期、短期等存储单元）、动态调度，解决长期交互中的记忆一致性与资源分配问题	MemGPT、MemoryOS、MEMOS	页式调度、热度分页迁移 / 驱逐、异构资源统一管理，支撑长期稳定交互与认知进化
认知进化记忆架构Cognitive Evolution Memory	模拟人类认知过程 / 融入心智理论，对人类心理状态和意图进行建模与推理，实现记忆与策略自我进化优化	AUGUSTUS、Nemori	闭环认知流程、结构化情景叙事、预测 - 校准迭代，主动提炼知识，具备自优化能力
图与时序记忆架构Graph and Temporal Memory	依托图结构 / 时序模型建模复杂关联与时序动态，精细化生命周期管理	Zep、Mem0、MemTree	强化多跳推理、时序推理；降低检索时延，优于传统 RAG 记忆架构

单智能体中的Memory

在这部分内容中，作者将人工智能记忆功能与目标分类总结为以下这个表格：

细分架构	核心设计思路	代表方案	关键优势 & 作用
分层记忆架构Hierarchical Memory	借鉴人类认知记忆模型，分层存储（短期层、长期层等） + 动态管理，解决大模型上下文窗口有限与长期存储需求的矛盾	HMT、H-MEM	多抽象层级分级管理；逐层检索，避免全局相似度计算，大幅提升大规模记忆检索效率
类操作系统记忆架构OS-like Memory	借鉴操作系统设计，设置存储单元，用分层存储（长期、短期等存储单元）、动态调度，解决长期交互中的记忆一致性与资源分配问题	MemGPT、MemoryOS、MEMOS	页式调度、热度分页迁移 / 驱逐、异构资源统一管理，支撑长期稳定交互与认知进化
认知进化记忆架构Cognitive Evolution Memory	模拟人类认知过程 / 融入心智理论，对人类心理状态和意图进行建模与推理，实现记忆与策略自我进化优化	AUGUSTUS、Nemori	闭环认知流程、结构化情景叙事、预测 - 校准迭代，主动提炼知识，具备自优化能力
图与时序记忆架构Graph and Temporal Memory	依托图结构 / 时序模型建模复杂关联与时序动态，精细化生命周期管理	Zep、Mem0、MemTree	强化多跳推理、时序推理；降低检索时延，优于传统 RAG 记忆架构

存储

记忆存储的主要功能是将碎片化的观测数据转化为结构化且持久化的记忆记录，同时构建标准化的索引体系，为后续检索提供支撑。

为实现精准访问，每个记忆单元均配备了功能化组件：包括用于时间定位的时间戳、用于追踪数据来源的来源标识，以及作为基础索引维度的结构化语义字段（如实体、关系、任务标签）的元数据。 这些元数据保障了复杂任务中记忆的可追溯性。

在内容类型划分上，存储内容主要分为四类：

过程式记忆：包含行动计划、习得行为与工具调用序列，用于优化任务执行效率。
陈述式记忆：涵盖事实性知识与感知观测结果，通过环境日志与语义事实构建智能体的世界认知基础。
元认知记忆：记录智能体自身的思维过程与反馈总结，用于支持对自身表现的追踪与策略调整，实现失败反思与行为进化。
个性化记忆： 维护用户画像，以保证交互连贯性与个性化体验。

从存储形式来看，记忆可分为两类：

显式存储（如文本日志、知识图谱、任务记录）指可直接访问与解释的内容；
隐式存储对应编码在模型参数中的信息（如持续学习中的权重更新、历史交互嵌入向量），这类信息不具备人类可读性，但在智能体推理过程中可被高效利用。

检索

记忆检索研究的核心，在于从大规模记忆库中精准检索并整合信息以指导内容生成，从而减轻幻觉现象并提升推理能力。相关方法大致可分为四种主流架构：基于向量的检索、基于图的检索、层次化检索以及多模态检索。

基于向量的记忆检索： 将离散的记忆内容映射到嵌入向量空间，以打破词汇匹配的限制，并捕捉潜在的语义关联。对于 “会抓老鼠的动物” 这类查询，它会将查询转化为向量并计算语义距离，即便没有显式的关键词重叠，也能检索到与 “猫科动物习性” 相关的文献。
层次化记忆检索： 将记忆组织为不同语义抽象层级（从摘要到细节），以解决上下文窗口限制与噪声干扰问题。该方法采用 “先目录后细节” 的逻辑，先定位宏观意图，再向下钻取具体信息。
基于图的检索框架： 通过将记忆元素表示为相互连接的节点与边，模拟人脑的联想记忆机制，有效克服了传统向量检索在处理复杂逻辑推理与长程依赖关系时的局限。例如，Zep通过其 Graphiti 引擎实现这一机制，结合广度优先搜索与层次化社区摘要，实现跨越时间维度、并包含时效性过滤的全局记忆检索。
多模态记忆检索： 将视觉信息与语义标签相融合，将检索任务的范围拓展到文本领域之外。HippoMM将连续的音视频流构建为长期情景表征，使系统仅通过部分线索或跨模态提示就能回忆完整的情景记忆。

更新

记忆更新是对已存储内容进行修正、替换或巩固的过程。它确保智能体在新数据到来时，通过纠正错误或过时信息、整合碎片化知识，从而避免重复犯错。将单智能体的记忆更新分为四类：增量更新、校正更新、巩固更新和遗忘更新。

增量更新：增量记忆更新侧重于将新感知到的经验与信息持续注入记忆库，同时不干扰已有的知识。例如，MemoryLLM 及其扩展版本 M+通过将新信息融入模型隐空间，并将多余的记忆令牌动态卸载至外部存储，实现记忆的增量扩展。然而，这种持续累积会带来信息膨胀的挑战：冗余或噪声数据不受控地增长，会显著降低检索效率并增加计算开销。
校正更新：校正记忆更新旨在修正已过时或模型内部的错误知识，或调整模型对特定事实的认知。 例如，H-MEM 将传统遗忘曲线与基于用户反馈的动态权重调节机制相结合，实现了记忆强度的实时校正与自适应更新。WISE 采用双参数记忆架构，将校正内容物理隔离在副记忆模块中，与主记忆里的预训练知识互不干扰。
巩固更新： 通过对碎片化记忆进行语义抽象与摘要归纳，优化存储结构并提升检索效率。例如，在 MemoryOS 中，当某一段中期记忆的综合热度值超过预设阈值时，系统会调用大语言模型提取不断演变的用户特征与事实知识。该热度值综合访问频率、交互深度与时间衰减等因素计算得到。提取后的信息会被更新至长期个性化记忆中，以保证智能体人格的持续一致性。
遗忘更新：通过主动删除或抑制冗余、敏感或低价值信息来维持记忆系统的高效运行。其中 MEOW 利用 “反向事实” 标签，通过微调实现隐秘式知识遗忘。

自我进化

进化是指智能体在持续交互与任务执行过程中，对已习得的知识、技能与行为策略动态迭代与优化的能力。

智能体并非简单累积静态的表层细节，而是将自身经验组织并提炼为可进化的结构，如自适应目标、可调约束、更新后的因果关系、迭代式行为模式等。面对新任务时，这类进化框架能够引导已有知识的迁移适配，降低增量学习成本，并将原始情景轨迹提炼为简洁、保留逻辑且具备适应性的技能、策略或提示指令。借助这些精炼且可进化的经验，智能体能够在更少示例与更少重训练的前提下，不断升级功能，适配不同用户、领域与工具，同时提升对噪声、新场景与分布偏移的鲁棒性。例如：

LightSearcher 将成功的推理与工具调用轨迹提炼为经验记忆，以此增强深度搜索能力，形成可复用的成熟模式，并在动态任务需求中动态平衡准确率与效率。
Voyager 则通过持续任务实践构建可扩展的可执行技能库，有效解决新Minecraft世界中的未知任务，从而加速技能掌握并降低遗忘风险。

关联整合

关联整合是指将文本、视觉、音频、交互等多模态信号融合为连贯的情境模型，以此构建记忆。在实际应用中，融合过程会对实体、时间戳、位置进行对齐，将相关线索（如人脸、口语姓名、文本描述）映射到统一的记忆节点。典型流程包括：

对底层线索采用早期融合；
通过交叉注意力 / 检索模块实现中层语义锚定；
以图结构链接方式构建持久记忆结构。

这一过程能够减少歧义、提升指代消解效果，并在视频帧与对话轮次间保持记忆连续性。摘要与向量嵌入可使融合内容保持紧凑，适配短时记忆；而带关联、带来源的记录则保证了长时记忆的可追溯性。例如：

M3-Agent 是多模态视频（语音 + 对话）记忆融合的典型代表：它将说话人人脸、姓名、幻灯片时间戳与指代实体进行对齐，构建行为与事实记忆图。早期融合稳定人脸追踪、说话人分离等底层线索，交叉注意力将文本提及与视觉区域对齐，智能体将片段摘要为嵌入向量用于短时记忆推理，同时存储关联记录供长时记忆检索。
Mem-0g 是基于图结构的 Mem0 扩展，它在向量之外保留实体与关系，以丰富结构化记忆，并通过向量检索 + 图遍历的方式实现联合检索。在长对话基准测试中，该模型相较基础系统取得了一定性能提升，其可追溯的融合记忆结构支持后续推理与跨项目任务规划。

多智能体中的Memory

现有的智能体记忆架构主要针对单智能体场景设计。然而，这类架构在面对多智能体系统时，对记忆管理缺乏足够的适配性；若直接扩展此类框架，往往会出现记忆错乱、冗余循环、集体智能停滞等问题。例如，在个人助手类应用中，通过检索增强生成（RAG）实现的显式记忆，采用独立私有的上下文存储空间。这在多智能体系统中会不可避免地形成信息孤岛，并最终造成跨角色信息的严重丢失。

因此，多智能体系统记忆机制的相关讨论归纳为两大核心部分，即通信机制与共享机制：

通信机制：文章界定了通信模式的范畴，区分了显式通信（如自然语言、结构化模式）与隐式通信（如隐式表征）；其中显式通信可保证可解释性，隐式通信则面向高速、基于状态的协同。
记忆共享机制：本文提出一套完整的记忆共享分类体系，按任务级与步骤级粒度进行划分，以应对知识管理的不同目标，以及高效多智能体协作所需的差异化优化重点。

通信机制

显示通信：显式通信指智能体之间有意识地传递符号化信息， 既包括非结构化的自然语言对话，也涵盖高度结构化、形式化的结构化数据。
- 非结构化自然语言：通过自然语言交互进行协作，并由明确分配的角色进行引导。例如，ChatDEV 采用基于角色的提示词，其中不仅包含分配的角色（如 “你是一名高级软件工程师”），还会整合先前交互中的相关上下文摘要。该方式将一种简单、易失的记忆形式直接嵌入到提示模板中。这种方法虽然灵活，但受限于自然语言固有的歧义性与冗余性，常常会引发误解、话题偏离循环，并造成大量的令牌消耗。
- 结构化数据模式：这是一种将智能体间的信息交换限定在预定义、机器可解析格式内的通信机制，常以 JSON 或 YAML 等格式序列化存储，构成了一种精准且高保真的记忆片段（即任务相关知识）传递方式。这一范式还延伸至标准作业流程：工作流中的智能体不仅进行通信，还会将结构化成果提交至共享工作区，进而触发下一个智能体的执行操作。
- 动态分配：根据任务需求，从共享内存空间动态路由至相关智能体。在这种模式下，智能体将中间结果、部分推理轨迹或与任务相关的知识写入公共记忆库，可采用前文通信方式中提到的自然语言或结构化数据模式等格式。例如，RCR-Router 负责对这些信息进行检索、筛选，并按需重新分发给对应的智能体。
隐式通信：与智能体之间通过直接、刻意的消息传递完成的显式通信不同，多智能体系统中的隐式通信无需此类智能体间交互即可实现协作，而是通过各个智能体程序内部的处理来运行。在这种模式下，智能体通过观察共享环境，或共享的内部状态表征，来推断其他智能体的意图或状态。
- 隐式表征：该范式下的多智能体系统中，智能体直接共享内部连续的隐式表征（隐藏嵌入向量），而非离散的自然语言令牌。该方法提出，绕开解码过程能够实现 “dense communication”或 “"thought-to-thought” 交互，从而实现纯隐空间协作与无损信息交换。通过将推理过程移出文本领域，这类方法旨在获得类似 “心灵感应协作” 的更高表达能力。LatentMAS 是该框架的典型代表，它让智能体完全在连续隐空间中进行通信与协作。在这类系统中，智能体生成并共享内部隐藏嵌入向量，将其作为 “隐式思想” 存储在共享工作记忆中。
- 压缩知识：该方法是隐式通信的进阶范式，其特点是对模型最终隐藏状态引入压缩机制。其核心目标是在保留高维内部信息语义保真度的同时，优化推理效率。有研究表明，处理连续状态能显著缓解自然语言解码与重编码固有的计算开销。基于此，Interlat 提出了一种框架，允许智能体选择性地压缩隐式表征，以进一步加速推理。该方法表明：将复杂内部状态下采样为离散令牌会限制推理能力，而通过高效压缩技术直接传输隐式状态，则能让智能体更好地利用细微的内部信息。

记忆共享

在多智能体系统中，共享记忆是集体智能的基础载体。当前研究在两种不同粒度上对该机制进行优化：

任务级记忆共享，聚焦于跨不同执行生命周期的知识留存与迁移；

步骤级记忆共享，则在单一协作任务的精细化工作流内，优化信息的精准分配。

任务级记忆共享：任务级记忆共享是指对来自不同任务执行过程中的经验进行整合，以支撑长期进化与跨领域迁移的机制。该方法将记忆重新定义为一种持久化载体，而非单纯的执行缓冲区；它不仅服务于当前任务，更作为深度经验池，用于存储累积下来的各类经验。
- 同构经验累积：这类记忆共享机制是指智能体团队在执行特定任务的全过程中不断积累经验的过程。其核心难点在于如何将原始的历史数据转化为可进化的知识与经验。有效方案并非保留会导致检索效率低下的线性执行日志，而是通过记忆抽象对记忆进行层次化结构化处理。该过程会从过往的失败与成功案例中提炼出高层认知、流程化技能与抽象策略。智能体通过整合这些总结出的经验，能够在后续任务中持续优化自身表现。例如，近期研究证实，对推理轨迹进行显式提炼可使智能体实现自我进化与自适应更新。
- 异构信息迁移：这是一种支撑执行异构任务的不同智能体之间进行信息互通的记忆共享机制。即便智能体在互不相关的领域中运行，也常会遇到规划、冲突消解等底层逻辑相似的子问题。该机制支持横向知识迁移，通过搭建共享信息池，让智能体能够检索并复用其他智能体验证有效的解决方案。借助这些共享经验，智能体在面对结构相似的场景时，无需从零开始探索，从而实现跨任务边界的快速适配。
步骤级记忆共享：步骤级共享是指在单次协作工作流的精细执行阶段中，向相关智能体动态分配特定信息的过程。该机制解决了多智能体协作中固有的 “噪声 - 上下文权衡问题”—— 全局状态的广播会迅速耗尽上下文窗口并分散注意力。
- 其核心方法是上下文路由。该方案不再为所有参与者维护完全同步的全局状态，而是采用角色感知的过滤机制：系统根据每个智能体的功能角色与当前任务阶段，判断信息的严格必要性。通过剪枝无关上下文，仅向智能体推送下一步所需的关键信息片段，从而降低计算开销并保持智能体的专注度。
- 采用此类动态路由策略的框架（如 RCR-Router）充分表明：优化任务内信息流能够在不超出智能体认知能力的前提下，显著提升协作效率。

发现一篇非常好的AI Memory综述！