StreamMeCo: Long-Term Agent Memory Compression for Efficient Streaming Video Understanding

0 阅读6分钟

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台,深度绑定高性能弹性算力,支持模型复现、训练、推理全流程,以按需计费、低价高效破解高端算力紧缺与成本高昂难题;同步Arxiv前沿论文并提供翻译、导读、分析服务,支持各类大模型一键复现与数据集微调,对接孵化资源助力科研成果转化;同时搭载多样化AI在线课程,实现理论学习与代码实操同步推进,全方位覆盖AI研发、科研创新与技能学习全场景需求。

大模型实验室官网链接: www.lab4ai.cn/arxiv?utm_s…

论文标题

StreamMeCo:面向高效流式视频理解的长期智能体记忆压缩

作者信息

  1. 王骏熙:上海交通大学、复旦大学
  2. 孙特:上海交通大学
  3. 张林枫:上海交通大学(通讯作者)

研究背景

  1. 流式视频理解需求激增:直播、实时监控、自动驾驶等场景对连续视频流的实时理解与推理需求快速增长,流式视频理解仅能依赖问题到达前观测到的有限信息,处理持续视觉信息成为核心挑战。
  2. 现有方法存在局限:主流方法聚焦视觉令牌压缩与KV缓存压缩,在超长视频场景下易丢失关键视觉信息,难以保持人物等实体的长期一致性。
  3. 智能体记忆方法瓶颈:M3-Agent等基于智能体记忆的方法将视频信息组织为记忆图,虽能保留信息完整性与实体一致性,但随记忆图规模扩大,存储与检索效率急剧下降,检索延迟过高,无法满足实时问答需求。
  4. 记忆压缩研究空白:工业级流式视频智能体的记忆压缩框架尚未出现,缺乏针对记忆图结构的高效压缩与检索优化方案。

研究目的

  1. 解决流式视频理解中智能体记忆图规模过大导致的存储成本高、检索速度慢、实时性差的问题。
  2. 设计无需训练的高效记忆压缩框架,在大幅压缩记忆图的同时,维持甚至提升模型理解精度
  3. 提出适配压缩后记忆图的检索机制,缓解压缩带来的性能下降,实现记忆的高效、精准检索。
  4. 为工业级流式视频智能体提供可落地的记忆压缩与检索解决方案。

本文核心贡献

  1. 提出双分支记忆压缩策略:针对孤立文本节点设计无边极值采样(EMsampling)模块,针对关联文本节点设计边感知权重剪枝(EWpruning)模块,基于记忆图连通性高效剔除冗余节点,保留关键信息。
  2. 创新时间衰减记忆检索(TMR)机制:模拟人类记忆遗忘规律,动态分配不同时段记忆节点检索数量,优先获取近期关键信息,显著缓解压缩带来的精度损失。
  3. 实现记忆压缩与性能双赢:在70%记忆图压缩率下,记忆检索速度提升1.87倍,平均精度提升1.0%,首次实现工业级流式视频智能体的有效记忆压缩。
  4. 方法具备强通用性:可直接迁移至Mem0等其他图结构智能体记忆框架,拓展了记忆压缩技术的应用范围。

研究方法

image

1. 整体框架

StreamMeCo为无需训练的流式视频智能体长期记忆压缩框架,核心包含双分支压缩模块时间衰减检索机制两部分。

2. 文本记忆压缩(双分支策略)

  • 无边极值采样(EMsampling)—— 处理孤立文本节点
    1. 采用球形KMeans对孤立文本节点嵌入向量聚类;
    2. 按预设保留比例,在每个聚类内执行极值采样:先选聚类中心最近节点,再迭代选取距已选节点最远节点,直至满足保留数量。
  • 边感知权重剪枝(EWpruning)—— 处理关联文本节点
    1. 构建文本节点与人脸/语音实体节点的权重边矩阵,计算节点实体重要性;
    2. 计算文本节点嵌入相似度矩阵,得到节点多样性得分;
    3. 融合实体重要性与嵌入相似度得到综合得分,保留高分节点,剪枝冗余节点。

3. 时间衰减记忆检索(TMR)

  1. 按时间戳将记忆节点划分为连续时段;
  2. 计算各时段与查询的整体相似度,作为时段相关性得分;
  3. 引入指数时间衰减函数,模拟人类记忆遗忘,弱化早期记忆权重;
  4. 按衰减后权重动态分配各时段检索节点数量,优先检索近期高相关记忆。

4. 实验设置

  • 数据集:M3-Bench-robot、M3-Bench-web、Video-MME-Long三个流式/长视频基准数据集;
  • 基线模型:Gemini-1.5-Pro、GPT-4o、Qwen2.5系列、MovieChat、M3-Agent等13种模型;
  • 实验环境:2块NVIDIA A100(80G)GPU,参数设置:聚类比例a=0.05、平衡系数b=0.1、衰减系数λ=0.1;
  • 对比方法:随机压缩、传统聚类、DART、TimeChat-Memory、MemoryLLM。

研究结果

  1. 压缩与精度表现
    • 70%记忆图压缩率下,平均精度较未压缩M3-Agent提升1.0%;
    • 30%压缩率时,M3-Bench-robot精度达34.6%,M3-Bench-web达50.7%,显著优于随机、聚类等压缩方法。
  2. 效率提升
    • 70%压缩率下,记忆检索速度实现1.87倍加速
    • TMR机制减少检索迭代次数,降低总检索耗时,解决压缩后检索轮次增多的问题。
  3. 模块有效性
    • 消融实验验证EMsampling、实体重要性、嵌入相似度三模块协同效果最优;
    • 指数衰减优于线性、分段衰减,λ=0.1时性能最佳。
  4. 通用性验证
    • 迁移至Mem0图记忆框架仍保持最优性能,证明方法适配多种图结构记忆系统。

总结与展望

本文提出的StreamMeCo是首个面向工业级流式视频智能体的长期记忆压缩框架,通过双分支结构压缩与时间衰减检索,在大幅缩减记忆图规模的同时,提升检索效率与模型精度,有效解决了流式视频理解中智能体记忆膨胀的核心痛点,为实时视频理解系统提供了高效记忆管理方案。

局限性

  1. 记忆图生成需频繁调用Gemini-2.5-Pro与text-embedding-3-large API,成本与时间开销较大;
  2. 实验仅验证3个基准数据集,测试范围有限。

未来展望

  1. 针对孤立节点与关联节点设计差异化自适应压缩策略
  2. 开展事件节点与语义节点的差异化压缩研究,保留关键事件与稳定语义信息;
  3. 系统研究记忆冗余、冲突与投毒问题,提升记忆图鲁棒性;
  4. 优化记忆图构建流程,降低前期时间与算力开销。