Qwen2.5-VL 论文精读

0 阅读12分钟

论文

arxiv.org/pdf/2502.13… 2025年2月

贡献

  1. 引入了动态分辨率处理和绝对时间编码,使其能够处理不同大小的图像和长达数小时的视频,同时进行事件定位。
  2. 从头开始训练一个原生动态分辨率VisionTransformer(ViT)和并结合窗口注意力,保持分辨率的同时显著减少了计算开销,优化推理效率。
  3. 引入动态FPS采样,将动态分辨率扩展到时间维度,从而实现在不同采样率下全面的视频理解;
  4. 通过与绝对时间对齐,在时间域领域升级MROPE,从而促进更复杂的时序学习;
  5. 在预训练和监督微调的高质量数据准备上做出了重大努力,将预训练语料库的规模从1.2万亿个令牌扩展到4.1万亿个令牌。

其他闪光特性如下:

  1. 强大的文档解析能力:Qwen2.5-VL将文本识别升级到全文档解析,擅长处理多场景多语言和各种内置(手写、表格、图表、化学公式和乐谱)文档。

  2. 跨格式精确的物体定位:Qwen2.5-VL改进了在检测、定位和计数物体等方面的准确性,支持绝对坐标和JSON格式进行高级空间推理。

  3. 超长视频理解和精细视频定位:我们的模型将原生动态分辨率扩展到时间维度提高了在几秒钟内提取事件片段的同时理解持续数小时的视频的能力。

  4. 增强计算机和移动设备的代理功能:利用先进的定位、推理和决策能力,提升在智能手机和计算机上模型的代理能力。

  5. Qwen2.5-VL保持了强大的语言性能,保留了Qwen2.5 LLM 的核心语言能力。

架构

三个组件

  1. 大型语言模型: 初始化用 Qwen2.5 LLM 的预训练权重。为了更好地满足多模态理解的需求,对 1D ROPE 改为了与绝对时间对齐的多模态旋转位置嵌入。
  2. 视觉编码器: 重新设计的 ViT 架构,结合了 2D-ROPE 和窗口注意力,以支持原生输入分辨率,同时加速整个视觉编码器的计算。在训练和推理期间,输入图像的高度和宽度在输入 ViT 之前被调整为 28 的倍数。视觉编码器通过将图像分割成步长为 14 的 patch 来处理图像,从而生成一组图像特征。
  3. 基于MLP的视觉语言融合:为了解决长序列图像特征带来的效率挑战,我们采用了一种简单而有效的方法来压缩特征序列,然后将其输入到大型语言模型(LLM)中。具体来说我们不会直接使用 ViT 生成的原始 patch,而是首先将空间相邻的四个 patch 特征分组。然后将这些分组的特征串联起来,并通过一个双层 MLP 将其投射到一个与 LLM 中使用的文本嵌入一致的维度中。这种方法不仅降低了计算成本,还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

快速高效的视觉编码器

  1. 视觉编码器在多模态大型语言模型(MLLMS)中起着关键作用。为了解决在训练和推断由于原始分辨率输入引发的计算负载不平衡带来的挑战,我们重新设计了 ViT 架构。处理不同大小的图像所涉及的平方计算复杂性是一个关键问题。为了缓解这种情况我们在大多数层中引入了窗口注意力,这确保了计算成本与 patch 数量成线性比例,而不是平方比例。在我们的架构中,只有四层使用完全自注意力,而其他层使用最大窗口大小为 112x112 (对应于 8x8 的 patch )的窗口注意力。小于 112x112 的区域在不进行填充,以保留其原始分辨率。这种设计允许模型在输入分辨率上以原生方式运行,避免了不必要的缩放或失真。
  2. 对于位置编码,我们采用 2D RoPE 来有效地捕捉二维空间中的空间关系。此外,为了更好地处理视频输入,我们将方法扩展到 3D patch partitioning 。具体来说,我们使用 14x14 的图像 patch 作为基本单位,与传统用于静态图像的 ViT 保持一致。对于视频数据,连续的两个帧被分组在一起显著减少了送入语言模型的 token 数量。这种设计不仅保持了与现有架构的兼容性,而且在处理连续视频数据时提高了效率。
  3. 为了简化整个网络结构,我们使 ViT 架构更紧密地与大型语言模型的设计原则保持致。具体来说,我们采用 RMSNorm 进行归一化,并使用SwiGLU 作为激活函数。这些选择既提高了计算效率,又增强了模型中视觉和语言组件之间的兼容性。
  4. 在训练方面,我们从头开始训练重新设计的 ViT。训练过程包括几个阶段,包括 CLIP 预训练、视觉语言对齐和端到端的微调。为了确保在各种输入分辨率上的稳健性,我们在原生分辨率上使用动态采样。
  5. 在训练方面,我们从头开始训练重新设计的ViT。训练过程包括几个阶段,包括 CLIP 预训练、视觉语言对齐和端到端的微调。为了确保在各种输入分辨率上的稳健性,我们在训练过程中对原生分辨率上使用动态采样。图像根据其原始纵横比进行随机采样,使模型能够有效推广到不同分辨率的输入。这种方法不仅提高了模型的适应能力,还确保了在不同大小的视觉数据上进行稳定和高效的训练。

原生动态分辨率和帧率

  1. Qwen2.5-VL在时空维度上引入了先进的技术,以有效处理多样化的多态输入。
  2. 在空间域中,Qwen2.5-VL动态地将不同大小的图像转换为具有相应长度的 token 序列。与传统的坐标归一化方法不同,我们的模型直接使用输入图像的实际尺寸来表示边界框、点和其他空间特征。这使得模型能够内在地学习尺度信息,从而提高其在不同分辨率下处理图像的能力。
  3. 对于视频输入,Qwen2.5-VL集成了动态帧速率(FPS)训练和绝对时间编码。通过适应可变帧速率,该模型可以更好地捕捉视频内容的时间动态。与其他包含文本时间戳或使用额外 head 来实现时间定位的方法不同,我们引入了一种新颖且高效的策略,该策略将 MRoPE IDs 直接与时间戳对齐。这种方法允许模型通过时间维度 ID 之间的间隔来理解时间的节奏,而不需要任何额外的计算开销。

多模态旋转位置嵌入与绝对时间对齐

  1. 位置编码对于在视觉和语言模态中建模序列数据至关重要。在 Qwen2-VL 中引入的多模态旋转位置嵌入(MRoPE)的基础上,我们扩展了其功能,以更好地处理视频中的时间信息。
  2. Qwen2-VL中的 MRoPE 将位置嵌入分解为三个不同的组件:时间、高度和宽度,以有效地建模多模态输入。对于文本输入,这三个组件使用相同的位置 ID ,使 MRoPE 在功能上与传统的 1D ROPE 相当。对于图像,时间 ID 保持不变,而高度和宽度组件根据每个符号在图像中的空间位置分配唯一ID 。在处理视频时,将其视为帧序列,时间 ID 逐帧递增,而高度和宽度组件则遵循与静态图像相同的分配模式。
  3. 然而,在Qwen2-VL中,MRoPE 中的时间位置ID与输入帧数相关联,这没有考虑到内容变化的速度或视频内事件的绝对时间。为了解决这一限制,Qwen2.5-VL引入了一个关键改进:将 MRoPE 的时间部分与绝对时间对齐。如图所示,通过利用时间 ID 之间的间隔,模型能够学习在不同 FPS 采样率下视频之间一致的时序对齐。

预训练方法

  1. 预训练数据量从 1.2 万亿 tokens 增加到约 4 万亿 tokens,包括图像描述、交错图像 - 文本数据、OCR 数据、视觉知识、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于 agent 的交互数据。
  2. 从零开始训练一个 Vision Transformer(ViT),同时利用预先训练的 Qwen2.5大 型语言模型作为 LLM 组件的初始化。如表所示,预训练过程分为三个不同的阶段,每个阶段采用不同的数据配置和训练策略,以逐步增强模型的能力。在第一阶段,只训练 Vision Transformer(ViT) 来改进它与语言模型的一致性,为多模态理解打下坚实的基础。这一阶段的主要数据来源包括图像说明、视觉知识和 OCR 数据。这些数据集经过精心选择,以增强 ViT 提取有意义的可视化表示的能力,这些表达可以有效地与文本信息集成。
  3. 在第二阶段,所有模型参数都被解冻,模型在多样化的多模态图像数据集上进行训练,以增强其处理复杂视觉信息的能力。这一阶段引入了更复杂和推理密集的数据集,如交错数据、多任务学习数据集、视觉问答(VOA)、多态数学、基于代理的任务、视频理解和纯文本数据集。这些数据集增强了模型在视觉和语言模态之间建立更深层次联系的能力,使其能够处理日益复杂的任务。
  4. 在第三阶段,为了进一步增强模型在更长的序列、视频和基于代理的数据上的推理能力,序列长度增加,同时加入了视频和基于代理的数据。这使得模型能够以更高的精确度处理更高级和复杂的多模态任务。通过增加序列长度,模型获得了处理扩展上下文的能力,这对于需要长距离依赖和复杂推理的任务特别有益。

后训练方法

  1. Qwen2.5-VL的后训练对齐框架采用双阶段优化范式,包括监督微调(SFT)和直接偏好优化(DPO)。这种对齐策略将参数高效的领域适应与人类偏好蒸馏相结合,通过不同的优化目标解决表征基础和行为的细化问题。

  2. 监督精细调优(SFT)旨在通过有针对性的指令优化来弥合预训练表示和下游任务需求之间的差距。在此阶段,我们采用ChatML格式来构造指令跟踪数据,故意偏离预训练数据模式,同时保持与 Qwen2-VL 的架构一致性。这种格式转换实现了三个关键的适应:1)明确的对话角色标记用于多模态转向,2)在文本指令旁边结构化注入视觉嵌入,3)通过格式感知包装保存跨模态位置关系。通过将模型暴露在这种增强的架构下精心挑选的多模态指令-响应对,SFT能够在保持预训练特征完整性的同时实现高效的知识转移。

  3. 监督微调(SFT)阶段使用精心挑选的数据集,旨在增强模型在各种模态下的指令遵循能力。该数据集包含约200万个,均匀分布在纯文本数据(50%)和多态数据(50%)之间,包括图像-文本和视频-文本组合。

  4. Qwen2.5-VL的后训练过程包括两个阶段:监督微调(SFT)和直接偏好优化(DPO),VisionTransformer (ViT)参数都被冻结。在SFT阶段,该模型根据不同的多模态数据进行微调,包括图像-文本对、视频和纯文本,这些数据源自一般VOA、拒绝采样和专门的数据集,如文档和 OCR、定位、视频和代理相关任务。DPO阶段专注于图像文本和纯文本数据,利用偏好数据将模型与人类偏好对齐,每个样本只处理一次,以确保高效优化。这个简化的过程增强了模型的跨模态推理和任务特定性能,同时保持与用户意图的匹配。

总结

Qwen2.5-VL 在多模态理解和交互方面取得了显著进展。通过增强的视觉识别、物体定位、文档解析和长视频理解能力,Qwen2.5-VL在静态和动态任务中都表现出色。其原生动态分辨率处理和绝对时间编码使其能够稳健地处理各种输入,而窗口注意力则在不牺牲分辨率保真度的情况下减少了计算开销。 Qwen2.5-VL适用于广泛的应用场景,从边缘 AI到高性能计算。旗舰型号 Qwen2.5-VL-72B 能够匹敌或超越 GPT-4o 和 Claude 3.5 Sonnet 等领先模型特别是在文档和图表理解方面,同时在纯文本任务上保持强劲性能。较小的Qwen2.5-VL7B 和Qwen2.5-VL-3B 版本在效率和多功能性方面优于类似大小的竞争对手。