Qwen2.5-VL技术报告

109 阅读6分钟

原文:mp.weixin.qq.com/s/IbfY50w_w…

全文摘要

Qwen 团队发布的最新旗舰模型 Qwen2.5-VL,在视觉语言能力上大幅提升,具备增强视觉识别、精确对象定位、稳健文档解析和长视频理解等能力,能以边界框或点定位对象,提取结构化数据并分析图表布局。它引入动态分辨率处理和绝对时间编码技术,无需传统归一化,即可处理不同大小图像与长达数小时视频,还能进行第二级事件定位;通过原生动态分辨率 Vision Transformer 及窗口注意力,在保原始分辨率的同时减少计算开销。该模型泛化能力强,无需微调可在多领域应用,还能作为交互式视觉代理执行任务。其有三种规模:旗舰 Qwen2.5-VL-72B 性能比肩 GPT-4o 等,擅长文档图表理解;Qwen2.5-VL-7B 和 3B 适用于资源受限环境,且保留 Qwen2.5 LLM 核心语言能力。

论文:arxiv.org/abs/2502.13…

官网地址: chat.qwenlm.ai

huggingface: huggingface.co/Qwen

modelscope: modelscope.cn/organizatio…

github: github.com/QwenLM/Qwen…

figure_1

论文方法

方法描述

该论文主要介绍了基于 Qwen2.5-VL 系列模型的大规模预训练多模态模型的设计与实现。该模型采用了多种设计和技术手段来提高其性能和效率。

首先,该模型使用了大规模的预训练数据集,并对其进行了精心筛选和清洗,以确保数据的质量和多样性。其次,该模型采用了改进的视觉编码器结构,包括使用旋转位置编码、窗口注意力机制等技术来处理图像序列。此外,该模型还引入了一种新的多模态旋转位置编码器,用于更好地处理文本和图像之间的关系。

最后,该模型采用了双阶段优化框架来进行微调,以进一步提高其性能和适应不同的任务需求。该框架结合了监督式微调和直接偏好优化两种技术,以同时考虑模型的表示能力和行为能力。

方法改进

相比于之前的多模态模型,该模型在以下几个方面进行了改进:

  1. 使用更大规模的数据集进行预训练,提高了模型的泛化能力和性能。
  2. 引入了更多的先进技术,如旋转位置编码器、窗口注意力机制等,提高了模型对不同输入类型的处理能力。
  3. 采用了双阶段优化框架,能够更有效地调整模型的行为和表示能力,提高了模型的适应性和性能。W

解决的问题

该模型主要解决了以下问题:

  1. 处理不同类型的输入数据时,如何提高模型的表达能力和性能。
  2. 如何更有效地调整模型的行为和表示能力,以适应不同的任务需求。
  3. 如何提高模型的泛化能力和适应性,使其能够在更广泛的应用场景中发挥作用。

figure_1

论文实验

本文介绍了对 Qwen2.5-VL 模型的多方面实验比较,包括视觉问答、纯文本任务、文档理解与 OCR、空间理解和视频理解等方面。在视觉问答方面,该模型在多个数据集上表现优异,如 MMBench 系列、MMStar、MME、MuirBench、BLINK、CRPE、HallBench、MTVB、MMVet 和 MM-MT-Bench 等。在纯文本任务中,Qwen2.5-VL 不仅在各种领域和任务上取得了最先进的性能,还展示了出色的多样性。在文档理解与 OCR 方面,该模型在 AI2D、TextVQA、DocVQA、InfoVQA、ChartQA、CharXiv、SEED-Bench-2-Plus、OCRBench、OCRBench_v2、CC-OCR 和 OmniDocBench 等基准测试中表现出色。在空间理解方面,该模型在指代表达理解、物体检测、自定义点定位和计数等任务上都取得了领先的成绩。最后,在视频理解方面,该模型在 LVBench、MLVU、LongVideoBench、EgoSchema、PerceptionTest、MLVU、LVBench、TempCompass 和 Charades-STA 等基准测试中也取得了显著的进步。总之,Qwen2.5-VL 在多个领域的实验中均表现出色,展示了其强大的多模态能力和适应性。

论文总结

文章优点

本文提出了一种名为Qwen2.5-VL的视觉语言模型系列,该模型在多模态理解和交互方面取得了显著进展。其增强的视觉识别能力、对象定位能力、文档解析能力和长视频理解能力使其在静态和动态任务中表现出色。此外,它具有原生的动态分辨率处理和绝对时间编码功能,可以高效地处理各种输入,并通过减少计算开销而不牺牲分辨率精度来降低计算负担。Qwen2.5-VL适用于从边缘AI到高性能计算的各种应用。旗舰版本Qwen2.5-VL-72B与领先的模型如GPT-4o和Claude3.5 Sonnet相比,在文档和图表理解方面匹配或超过它们,同时保持纯文本任务的良好性能。较小的Qwen2.5-VL-7B和Qwen2.5-VL-3B变体优于相应大小的竞争者,提供效率和灵活性。Qwen2.5-VL为视觉语言模型树立了新的基准,展示了在跨领域的任务执行和一般化方面的卓越表现,为更智能和互动系统的发展铺平了道路,实现了感知和现实世界应用之间的桥梁。

方法创新点

本文的主要贡献在于以下几个方面:

  1. 实施窗口注意力机制:将窗口注意力引入视觉编码器以优化推理效率。
  2. 引入动态FPS采样:将动态分辨率扩展到时域维度,使模型能够全面理解不同采样率下的视频。
  3. 升级MRoPE:在时域上对齐至绝对时间,从而促进更加复杂的序列学习。
  4. 数据集构建:致力于高质量数据的收集和整理,进一步扩大预训练语料库规模。

未来展望

基于本文提出的Qwen2.5-VL框架,未来的研究可以从以下方向展开:

  1. 模型融合:探索如何将不同的视觉语言模型(如Omni、MoE等)融合在一起,提高整体性能。
  2. 知识迁移:研究如何利用已有的知识库来辅助新模型的学习过程,缩短收敛时间和提高泛化能力。
  3. 多模态推理:探索如何更好地整合不同类型的数据源,如图像、视频、音频等,以实现更高效的多模态推理。
  4. 可解释性和可定制性:研究如何提高模型的可解释性和可定制性,以便用户可以根据特定需求调整模型的行为和性能。