Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Penguin-VL 论文解读

Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台，深度绑定高性能弹性算力，支持模型复现、训练、推理全流程，以按需计费、低价高效破解高端算力紧缺与成本高昂难题；同步Arxiv前沿论文并提供翻译、导读、分析服务，支持各类大模型一键复现与数据集微调，对接孵化资源助力科研成果转化；同时搭载多样化AI在线课程，实现理论学习与代码实操同步推进，全方位覆盖AI研发、科研创新与技能学习全场景需求。

原始链接：arxiv.org/pdf/2603.06…

作者信息

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang; 腾讯人工智能实验室 (Tencent AI Lab)

研究背景

视觉语言模型（VLM）的发展主要依赖于模型规模的扩展，这严重阻碍了其在计算受限的移动端和边缘设备（如智能手机和机器人）上的部署。当前主流的VLM实践通常依赖通过大规模对比预训练（如CLIP/SigLIP）初始化的视觉编码器。然而，这种做法存在目标不匹配的问题：对比学习针对判别任务进行优化，强制执行粗粒度和类别级别的不变性，这抑制了密集字幕描述和复杂VLM推理所需的细粒度视觉线索。因此，探索紧凑型VLM的性能极限，并寻找不依赖大规模对比预训练的高效视觉表示学习方法，具有重要的现实意义和研究必要性。

研究目的

本研究旨在探索紧凑型（如2B和8B）VLM的性能极限，挑战当前最先进的VLM必须依赖大规模对比预训练视觉编码器的主流观点。具体目标是解决对比学习目标与语言模型的生成式序列预测之间的根本性不匹配，提出一种由纯文本LLM初始化的视觉编码器（Penguin-Encoder），以解锁更高的视觉保真度和数据效率。研究致力于在轻量级架构下，实现与领先大型VLM（如Qwen3-VL）相当的性能，并在文档理解、视觉知识和多视角视频理解等特定任务上超越现有模型。

核心贡献

提出了Penguin-Encoder，一种新视觉编码器，直接改编自纯文本LLM架构，通过重用LLM骨干权重实现了更紧密的模态对齐和架构改进，摆脱了对主流ViT架构的依赖。
引入了混合监督编码器预训练，提出了专门针对该编码器的辅助目标，允许有效联合利用大规模有标签和无标签结构化数据（如图表），显著提高了数据效率和表示质量。
提出了统一的训练配方，Penguin-VL训练流水线集成了从低到高分辨率的课程学习、优先级感知视频令牌压缩（TRA）以及协调图像和视频能力的两阶段指令微调策略。
在紧凑规模下实现了强劲性能，证明了改进的视觉表示而非模型扩展是性能的主要驱动力，在计算受限的设置中实现了高性能，为参数高效的VLM提供了强有力的替代方案。

研究方法

研究采用了以下核心方法：

模型架构：采用三模块设计，包括基于LLM的视觉编码器（Penguin-Encoder，将因果自注意力转换为双向全注意力并配备2D-RoPE）、基于MLP的视觉-语言投影器以及LLM骨干。
视频编码与压缩：引入时间冗余感知（TRA）视觉令牌编码和压缩策略，根据时间相似性将帧分类为关键帧和中间帧，通过三阶段级联策略动态分配令牌预算。
数据构建：构建了大规模高质量多模态语料库（Penguin-Recap-I, Penguin-Recap-V, Penguin-QA），采用分层聚类进行多样性平衡，并使用多粒度视频注释（事件级、章节级、整体级）。
训练流程：分为三阶段，第一阶段为编码器训练（低分辨率预训练+高分辨率微调，使用重构损失），第二阶段为VLM预训练，第三阶段为监督微调（SFT），涵盖图像和视频的广泛任务。

研究结果

实验结果表明，Penguin-VL在2B和8B参数规模下，在多个图像和视频基准测试中表现出色。在图像任务中，Penguin-VL在文档理解（如DocVQA, ChartQA）、视觉知识（V-star）方面超越了领先的VLM（如Qwen3-VL），并在数学推理（MathVista）上表现强劲。在视频任务中，Penguin-VL在长视频理解（LongVideoBench）、时间推理（NextQA, CharadesSTA）和多视角视频理解方面超越了现有模型。消融实验证实，从LLM权重初始化的Penguin-Encoder始终优于对比预训练的编码器，保留了密集感知和复杂推理所需的关键细粒度空间和时间线索。即使在数据量显著较少的情况下，Penguin-Encoder仍优于传统对比预训练编码器。

总结与展望

本研究介绍了Penguin-VL，一个紧凑的、以视觉为中心的多模态基础模型，弥合了图像和视频理解之间的差距。研究挑战了依赖视觉进行大规模对比预训练的标准做法，证明了其判别性质会抑制高级推理所需的细粒度视觉线索。通过提出直接从纯文本LLM架构初始化的Penguin-Encoder，并在2B和8B规模下进行了广泛评估，证实了将视觉编码器的初始化与LLM的生成目标对齐，比扩展不连续的对比预训练提供了更优越且数据效率更高的路径。未来工作方向包括实时推理优化、基于强化学习的后训练技术以及向智能体应用（如GUI代理和计算机使用场景）的扩展。