LightMem用3招重新设计了LLM的记忆，结果出乎意料LightMem用3招重新设计了LLM的记忆，结果出乎意料 L

LightMem用3招重新设计了LLM的记忆，结果出乎意料

在超长多轮对话里，LLM 面临两大痛点：

图 1 现有记忆系统 vs LightMem

如图 1 所示，现有系统要么“全量硬存”，要么“逐轮硬更新”，冗余信息 > 50%，实时推理被拖垮。

Atkinson-Shiffrin 模型把记忆分为：

LightMem 直接把这套机制搬进了 Transformer 时代。

图 3 整体架构

图 4(a)：不同压缩率下 QA 准确率几乎不变，token 先砍一半

做法：

在线阶段只做“追加写”，零延迟。
离线阶段并行执行“读-改-写”：
每条记忆维护一个更新队列 𝒬(e_i)，仅与更高时间戳的条目合并，可批量并行，总延迟从 O(N) → O(1)。

表 1 在 LongMemEval-S（平均 110k Token）上与 6 个强基线Full-Text、Naive RAG、LangMem、A-MEM、MemoryOS、Mem0对比：

基于GPT和Qwen骨干网络在LongMemEval上的实验表明：LightMem在准确率上超越强劲基线（最高提升10.9%），同时显著降低token使用量达117倍，减少API调用达159倍，并将运行时间缩短超过12倍。

表 2 给出压缩率 r 与缓冲阈值 th 的联合调参：

场景	硬更新	LightMem 软更新
用户先去东京→再问京都	直接覆盖为“计划京都游”，东京信息丢失	追加写入，两地行程并存

离线合并时再做知识消歧，既保证实时性，又避免不可逆信息损失。

LightMem: Lightweight and Efficient Memory-Augmented Generation浙江大学 & 新加坡国立大学  https://arxiv.org/html/2510.18866https://github.com/zjunlp/LightMem