视频理解的感知新范式!| LLaVA-OneVision-2:视频理解/空间推理/目标跟踪全面屠榜,大幅超越Qwen3-VL!

24 阅读15分钟

想象一下,你让一个AI看一段10分钟的长视频,希望它精准定位“猫跳过窗户”的瞬间——传统方法均匀采样帧,结果关键动作恰好落在两帧之间,模型告诉你“没看到”。这不是AI笨,而是它根本不知道往哪里看。今天要解读的LLaVA-OneVision-2,用了一个反常识的思路:让AI直接读取视频压缩码流中的比特成本信号,像侦探一样找到信息最密集的地方。读完本文,你将彻底理解这个“码流感知”范式的原理、架构和惊人效果。

🔥 开源代码已放出:github.com/EvolvingLMM…

点击这里获取 👉 原文链接

点击这里获取 👉 B站原创视频解读

❓ 为什么99%的视频理解方法都“看不见”关键时刻?

当前几乎所有视频多模态大模型都遵循一个默认策略:将视频均匀采样为8到32帧,然后逐帧编码。这个做法有两个致命问题:一是关键动作很容易被跳过,二是90%的帧都是冗余的——背景静止、人物没动,却消耗了等额的token预算。更令人困惑的是,过去五年的探索(从稀疏采样、启发式压缩到学习型选择)始终停留在“预测后处理”层面,从未触及视频信号本身的结构。

视频编解码器(如H.265)其实已经告诉我们哪些区域信息量大:I帧提供全局上下文,P帧只编码运动残差。但现有模型宁愿解码所有帧再丢弃冗余,也不愿直接利用码流中的比特成本信号。这种脱节导致token预算被平均分配,而真正承载事件的时刻往往被稀释。LLaVA-OneVision-2的作者认为,下一代感知智能必须从“均匀观察帧”转变为“选择性分配证据”——让视觉token的分配与压缩流的预测结构对齐。这条技术路线图清晰地展示了从2018年I3D手工特征、2022年ToMe/TokenLearner等学习压缩,一直到2026年codec对齐的完整演进,尤其突出了LLaVA-OneVision-2所处的位置。

图:视频理解领域视觉token压缩技术的演进路线图,从早期稀疏采样到codec对齐的感知智能范式,LLaVA-OneVision-2标志着从“压缩token”到“原生表示”的关键转折。

但为什么99%的优化尝试都失败了?关键就在架构设计上——传统方法只在模型内部做token剪枝,而忽略了码流本身就是最天然的显著性信号。下面我们深入模型内部,看它是如何做到的。

🚀 原理拆解:码流感知如何颠覆视频表示

💡 整体架构:统一视觉token接口

LLaVA-OneVision-2的核心是一个共享的OneVision-Encoder,它统一处理三种输入形式:codec-stream视频(通过自适应GOP划分和运动残差选择得到紧凑视觉画布)、均匀采样帧视频(传统帧序列)和原生分辨率图像(空间视觉token)。所有视觉输入经编码器后与文本token拼接,送入预训练的自回归LLM(Qwen3-8B)生成回答。

架构最巧妙的地方在于:连接器和语言模型完全不知道输入来自哪种形式——它们看到的只是一组带有3D RoPE坐标和分组可见性掩码的token。这意味着codec流处理只改变了输入侧的证据选择策略,而模型的推理路径保持不变。这种设计让方法可以直接继承现有的图像-视频指令微调数据,无需修改下游结构。

图:LLaVA-OneVision-2整体架构,通过共享OneVision-Encoder统一处理codec流视频、采样帧视频和原生分辨率图像,所有视觉输入经编码后与文本token拼接输入自回归LLM解码

💡 核心创新一:比特成本驱动的自适应GOP划分

传统GOP(图像组)基于固定时间间隔(如每4秒一组),但视频内容复杂度随时间剧烈变化。LLaVA-OneVision-2的做法是:将视频视为连续的比特成本流。它把视频划分为B个短区间,汇总每个区间内P/B帧数据包的大小作为“比特成本信号”。高成本区间对应快速运动、视角变化或视觉突变——这些正是需要更多token的时刻。

具体地,作者计算每个区间的比特成本 和平均配额 :

然后通过累积成本达到 或达到最大跨度 来触发组边界,并通过局部谷值搜索精化边界。下图展示了这种自适应分组的效果:高变区域的组很短(如G1仅17帧),而可预测区域的组很长(如G5达到103帧),从而把有限的计算资源集中在信息最密集的地方。

图:基于累积比特成本的自适应GOP划分,蓝色折线为帧级比特成本,红色虚线为阈值,绿色虚线标记组边界,高变化区间形成短组(G1仅17帧),低变化区间形成长组(G5达103帧)

💡 实战思考:这就像你在看一部电影时,大脑会自动忽略稳定的背景,而把注意力放在突然出现的动作上。比特成本信号充当了大脑的“注意力通知”,让模型知道哪里该“多看几眼”。

💡 核心创新二:运动残差驱动的空间显著性选择

GOP划分后,每个组内需要进一步决定保留哪些空间区域。编解码器输出的运动矢量和亮度残差提供了天然的显著性线索:运动剧烈、残差大的区域包含判别性语义信息。作者将运动场稠密化至像素网格,对亮度残差做鲁棒百分位数归一化,得到密集显著性图 。

与原始OV-Encoder不同,LLaVA-OneVision-2采用2×2块级选择来对齐编码器侧的patch合并操作。块得分 是对该块内所有像素的显著性求和。这样一来,每个被选中的块贡献四个空间连贯的token,避免了从不同源区域或者帧中拼接不相关的patch。

进一步地,作者设计了帧级分配权重来防止单帧主导选择。通过同帧衰减和峰值加权:

累积分配曲线 将时间顺序映射到累积显著性质量的分位数。假设组 被分配 个P画布,则第 个画布从累积质量落入 区间的帧中抽取高分块。整个过程通过分层时间分配确保每个P画布都能覆盖不同时间段的显著性区域。

接下来的流程图清晰展示了从GOP划分、评分、块选择到画布打包的完整流程。

图:Codec-stream tokenization流程:①按P/B包能量自适应划分GOP;②融合运动能量与残差能量生成空间显著性评分图;③筛选高分2×2像素块;④将选中块打包为紧凑的I/P画布

💡 实战思考:这就像给模型装配了一个“显微镜”,让它只关注运动边界和残差区域,而不是把每个像素一视同仁。当token预算有限时,这种选择性分配远比均匀采样高效。

💡 训练流程:渐进式四阶段策略

LLaVA-OneVision-2的训练遵循一个精心设计的渐进式方案,逐步扩展视频长度和token预算:

阶段视觉预算主要数据
阶段1 图像预训练30帧LLaVA-OV-1.5图像数据 + 30s视频字幕420万
阶段2 指令+中视频60/90帧2200万指令数据 + 2400万FineVision + 270万30-60s字幕 + 70万60-180s字幕
阶段3 长视频理解384帧继承数据 + 35万10-15分钟字幕
阶段4 编解码流+空间384/768帧长视频用可变GOP codec重编码 + 400万空间语料库 + Molmo2跟踪数据

注意:编解码流仅在阶段4引入,并且只应用于长视频字幕组件,而非全局强制。这种设计使模型先通过均匀帧采样获得扎实的感知能力,再通过codec流训练学会“抓重点”。训练时三种输入形式交错混合(约50% codec流、37.5%均匀帧、12.5%图像),让模型同时适应不同的证据结构。

训练数据的构成也很有深意。下图的饼图展示了视频描述语料库的时长分布和空间推理数据集的样本比例。

图:LLaVA-OneVision-2.0训练数据混合策略,(a)视频描述语料不同时长区间的token占比,(b)空间推理语料六个数据集的样本占比

💡 推理流程:统一接口下的证据分配

推理时,输入视频通过codec前端得到画布集合 、token记录 和自适应组 。每个token携带画布索引、源帧ID、压缩坐标、源坐标和组ID。OneVision-Encoder使用共享的3D RoPE为所有token分配统一的时空坐标系,然后通过“组可见注意力掩码”来定义可见性:codec流输入中同一变长GOP内的token互可见,而采样帧和图像使用固定槽位。最终,语言模型按标准自回归方式生成文本。

整个过程中,模型不需要任何编解码器特定的适配器——差异仅在于视觉证据的选择和组分配。这使得方法轻量且易于与其他输入形式集成。

📊 实验验证:数据说话

🏆 SOTA对比:全面碾压8B级模型

在18项视频理解任务和11项空间推理任务上,LLaVA-OneVision-2-8B交出了令人咋舌的成绩单。下表展示了与Qwen3-VL、InternVL-3.5、Keye-VL-1.5等8B级模型的全面对比。

表:8B-class MLLM在18项视频任务上的主结果对比。LLaVA-OV-2-8B以62.5平均分领跑,视频问答、时序定位、空间推理均最佳或次佳

关键数字:

  • 18项视频平均分:62.5,比Qwen3-VL-8B高出4.3分
  • 4项跟踪平均分:48.0,比Qwen3-VL-8B高出15.6分
  • JumpScore mAP:74.9,比Qwen3-VL-8B(30.1)高出44.8分!

在空间推理任务上,提升更为惊人。下表显示在CrossPoint上提升35.0分(61.9 vs 26.9),在TraceSpatial-3D上几乎是次优模型的4倍(31.0 vs 8.0)。

表:8B MLLM在11项空间推理任务上的对比。LLaVA-OV-2平均63.5,领先Qwen3-VL 5.3分,在CrossPoint和TraceSpatial-3D上大幅超越

💡 实战思考:这些提升不是偶然的。编码流tokenization在事件级推断任务(时序定位、动作理解)上优势最明显,因为它把token重新分配到高比特成本和高残差区域,而这些区域恰好对应事件的边界和细节。

🔬 消融实验:码流 vs 均匀帧采样

为了隔离codec-stream tokenization的贡献,作者在保持模型、数据、评估协议不变的前提下,仅替换输入为codec流或均匀帧采样。结果体现在多个维度:

时序定位任务是最大受益者。在JumpScore上,codec流平均提升17.3分;在QVHighlights、Charades-STA、ActivityNet上平均提升9.7分。下图展示了8个数据集上随着帧预算(token数量)变化的性能曲线,绿色区域标明了codec流的优势区间。

图:Codec-stream(绿色实线)与均匀帧采样(灰色虚线)在8个基准上的性能曲线,浅绿色区域标注优势区间。codec在低帧预算下优势尤其显著

长视频QA任务上,codec流保持等量或略有提升,说明它没有牺牲语义覆盖。下图进一步展示了VideoMME-v2上按技能维度的消融结果——codec在视觉识别、音频描述等静态任务上领先,但在运动轨迹、未来预测等动态任务上偏弱,这为混合输入策略提供了依据。

图:VideoMME-v2上的per-skill消融实验,青色表示codec-stream优势,珊瑚色表示帧采样优势。codec在静态视觉和描述任务上强,帧采样在动态时序任务上强

固定码流 vs 自适应码流的对比进一步证明:优势不仅来自压缩,更在于使视觉观测遵循比特成本动态。下表中的STREAM(自适应GOP)在大多数设置下优于FIX(固定GOP)。

表:Stream输入与Fix输入在长视频任务中的帧预算扩展对比,Stream在低预算下持平或小幅领先,高预算下两者收敛

🏆 视频跟踪与指代分割:点跟踪+SAM2的极致组合

在DAVIS、MeViS、REVOS四个基准上,LLaVA-OV-2-8B通过输出目标ID和每帧跟踪点,再以这些点作为SAM2的提示来生成掩码。下表显示,它在所有指标上大幅领先现有方法,Overall分数41.0,比次优的Qwen2-VL-8B(30.8)高10.2分。

表:R-VOS任务对比,LLaVA-OV-2-8B在J&F和Overall上全面领先,DAVIS上J&F达58.7

两个可视化案例直观展示了跟踪效果。在ReasonVOS的“跟踪向前移动的动物”任务中,点序列跟随猫穿过姿态变化和部分遮挡,J&F达到0.939。

图:ReasonVOS上“跟踪向前移动的动物”案例,绿色点为模型每帧预测的跟踪点,下行蓝色为SAM2生成的密集掩码

在Ref-DAVIS17的Drift-Chicane“跟踪跑车”案例中,点序列在轮胎烟雾和视角变化中保持对齐,J&F达0.961。

图:Ref-DAVIS17上“跟踪跑车”案例,点序列在烟雾和运动模糊中稳定跟踪

🔬 JumpScore:细粒度时间定位的新标杆

作者还引入了JumpScore——一个针对高频、密集重复运动的时序定位基准(如跳绳)。在这种场景下,相邻周期的视觉外观极其相似,传统均匀帧采样和基于相似度的去重方法几乎失效。而codec-stream tokenization因为比特成本峰值和残差响应集中在周期转换处,能够精准定位每个周期的起始。

下图直观展示了这一点:均匀128帧采样只预测出14/85个周期起始,而codec选择patch策略预测出82/85个。

图:JumpScore上均匀帧采样(左、蓝线)预测14/85周期,codec-stream(右、橙线)预测82/85,mAP从0.116提升到0.894

💎 空间定位与机器人轨迹预测

最后,本文展示了模型在2D/3D空间定位和真实机器人操作上的能力。2D空间定位任务中,模型能根据复杂语言指令预测精确坐标点;3D任务中能输出pick-and-place轨迹。下图展示了两个真实机器人任务:将苹果放到绿色盘子,以及将面包放入烤箱,轨迹随着夹爪接近目标动态更新。

图:真实世界机器人操作轨迹预测,青色折线为轨迹顺序,洋红色点为路点,绿色为起点,机器人根据当前状态动态更新路径

⚖️ 客观评价与未来展望

局限性:codec-stream tokenization在运动轨迹预测、未来事件推断等动态任务上不如均匀帧采样(图8显示最多降低11.7分)。这是因为密集帧观测能更好地保留局部纹理和帧间连续性,而codec流的稀疏性可能会丢失细微运动线索。作者建议在实际部署中采用混合策略,根据任务类型选择或组合两种输入。

计算开销:codec前端预处理(GOP划分、显著性评分、块选择)为一次性计算,与模型推理无关。在标准GPU上,处理10分钟视频的预处理耗时约3-5秒,相比于模型推理时间可以忽略。但需要额外的编解码器支持。

未来方向:作者计划将codec对齐范式扩展至小时级甚至更长的视频,探索流感知的在线更新和检索,并结合3D空间推理实现具身智能的完整感知-行动循环。

🌟 价值升华

读完本文,你应带走三个核心收获:

  1. 感知即分配:视频理解的关键不在于帧的多少,而在于把有限的计算资源分配到何处。codec-stream用比特成本信号作为天然注意力,实现了近似最优的token分配。
  2. 轻量却强力:所有创新仅在输入侧,不修改模型结构,不增加推理复杂度。任何现有MLLM都可以通过替换输入预处理来获得类似提升。
  3. 数据是燃料:渐进式四阶段训练和800万标注字幕+400万空间数据的组合,证明了“感知数据”的重要性超过了“指令数据”——告诉模型该看哪里,比告诉它怎么回答更重要。

🤔 深度思考:你认为这项技术最可能落地哪个场景?是自动驾驶中的快速事件检测,还是安防监控中的长视频行为分析?欢迎在评论区分享你的想法!

💝 支持原创:如果本文帮到你,点赞+赞同就是最好的支持!分享给更多需要的同行!

#AI技术 #多模态大模型 #视频理解 #CodecStream #LLaVA #时序定位 #技术干货 #论文解读

参考

LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

相关链接