StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台，深度绑定高性能弹性算力，支持模型复现、训练、推理全流程，以按需计费、低价高效破解高端算力紧缺与成本高昂难题；同步Arxiv前沿论文并提供翻译、导读、分析服务，支持各类大模型一键复现与数据集微调，对接孵化资源助力科研成果转化；同时搭载多样化AI在线课程，实现理论学习与代码实操同步推进，全方位覆盖AI研发、科研创新与技能学习全场景需求。

大模型实验室官网链接： www.lab4ai.cn/arxiv?utm_s…

论文标题

StreamMeCo：面向高效流式视频理解的长期智能体记忆压缩

作者信息

王骏熙：上海交通大学、复旦大学
孙特：上海交通大学
张林枫：上海交通大学（通讯作者）

研究背景

流式视频理解需求激增：直播、实时监控、自动驾驶等场景对连续视频流的实时理解与推理需求快速增长，流式视频理解仅能依赖问题到达前观测到的有限信息，处理持续视觉信息成为核心挑战。
现有方法存在局限：主流方法聚焦视觉令牌压缩与KV缓存压缩，在超长视频场景下易丢失关键视觉信息，难以保持人物等实体的长期一致性。
智能体记忆方法瓶颈：M3-Agent等基于智能体记忆的方法将视频信息组织为记忆图，虽能保留信息完整性与实体一致性，但随记忆图规模扩大，存储与检索效率急剧下降，检索延迟过高，无法满足实时问答需求。
记忆压缩研究空白：工业级流式视频智能体的记忆压缩框架尚未出现，缺乏针对记忆图结构的高效压缩与检索优化方案。

研究目的

解决流式视频理解中智能体记忆图规模过大导致的存储成本高、检索速度慢、实时性差的问题。
设计无需训练的高效记忆压缩框架，在大幅压缩记忆图的同时，维持甚至提升模型理解精度。
提出适配压缩后记忆图的检索机制，缓解压缩带来的性能下降，实现记忆的高效、精准检索。
为工业级流式视频智能体提供可落地的记忆压缩与检索解决方案。

本文核心贡献

提出双分支记忆压缩策略：针对孤立文本节点设计无边极值采样（EMsampling）模块，针对关联文本节点设计边感知权重剪枝（EWpruning）模块，基于记忆图连通性高效剔除冗余节点，保留关键信息。
创新时间衰减记忆检索（TMR）机制：模拟人类记忆遗忘规律，动态分配不同时段记忆节点检索数量，优先获取近期关键信息，显著缓解压缩带来的精度损失。
实现记忆压缩与性能双赢：在70%记忆图压缩率下，记忆检索速度提升1.87倍，平均精度提升1.0%，首次实现工业级流式视频智能体的有效记忆压缩。
方法具备强通用性：可直接迁移至Mem0等其他图结构智能体记忆框架，拓展了记忆压缩技术的应用范围。

研究方法

1. 整体框架

StreamMeCo为无需训练的流式视频智能体长期记忆压缩框架，核心包含双分支压缩模块与时间衰减检索机制两部分。

2. 文本记忆压缩（双分支策略）

无边极值采样（EMsampling）—— 处理孤立文本节点
1. 采用球形KMeans对孤立文本节点嵌入向量聚类；
2. 按预设保留比例，在每个聚类内执行极值采样：先选聚类中心最近节点，再迭代选取距已选节点最远节点，直至满足保留数量。
边感知权重剪枝（EWpruning）—— 处理关联文本节点
1. 构建文本节点与人脸/语音实体节点的权重边矩阵，计算节点实体重要性；
2. 计算文本节点嵌入相似度矩阵，得到节点多样性得分；
3. 融合实体重要性与嵌入相似度得到综合得分，保留高分节点，剪枝冗余节点。

3. 时间衰减记忆检索（TMR）

按时间戳将记忆节点划分为连续时段；
计算各时段与查询的整体相似度，作为时段相关性得分；
引入指数时间衰减函数，模拟人类记忆遗忘，弱化早期记忆权重；
按衰减后权重动态分配各时段检索节点数量，优先检索近期高相关记忆。

4. 实验设置

数据集：M3-Bench-robot、M3-Bench-web、Video-MME-Long三个流式/长视频基准数据集；
基线模型：Gemini-1.5-Pro、GPT-4o、Qwen2.5系列、MovieChat、M3-Agent等13种模型；
实验环境：2块NVIDIA A100（80G）GPU，参数设置：聚类比例a=0.05、平衡系数b=0.1、衰减系数λ=0.1；
对比方法：随机压缩、传统聚类、DART、TimeChat-Memory、MemoryLLM。

研究结果

压缩与精度表现
- 70%记忆图压缩率下，平均精度较未压缩M3-Agent提升1.0%；
- 30%压缩率时，M3-Bench-robot精度达34.6%，M3-Bench-web达50.7%，显著优于随机、聚类等压缩方法。
效率提升
- 70%压缩率下，记忆检索速度实现1.87倍加速；
- TMR机制减少检索迭代次数，降低总检索耗时，解决压缩后检索轮次增多的问题。
模块有效性
- 消融实验验证EMsampling、实体重要性、嵌入相似度三模块协同效果最优；
- 指数衰减优于线性、分段衰减，λ=0.1时性能最佳。
通用性验证
- 迁移至Mem0图记忆框架仍保持最优性能，证明方法适配多种图结构记忆系统。

总结与展望

本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架，通过双分支结构压缩与时间衰减检索，在大幅缩减记忆图规模的同时，提升检索效率与模型精度，有效解决了流式视频理解中智能体记忆膨胀的核心痛点，为实时视频理解系统提供了高效记忆管理方案。

局限性

记忆图生成需频繁调用Gemini-2.5-Pro与text-embedding-3-large API，成本与时间开销较大；
实验仅验证3个基准数据集，测试范围有限。

未来展望

针对孤立节点与关联节点设计差异化自适应压缩策略；
开展事件节点与语义节点的差异化压缩研究，保留关键事件与稳定语义信息；
系统研究记忆冗余、冲突与投毒问题，提升记忆图鲁棒性；
优化记忆图构建流程，降低前期时间与算力开销。