动机: 初步了解模型结构与训练过程
含有4个版本:
Qwen-VL
Qwen-VL-Chat
Qwen-VL-Plus: 大幅提升细节识别能力和文字识别能力, 支持超百万像素分辨率和任意长宽比规格的图片.
Qwen-VL-Max: 在Plus基础上的再次提升, 提升了视觉推理能力和指令遵循能力, 提供更高的视觉感知和认知水平, 在更多复杂任务上提供最佳性能.
模型结构
组成:
- Vision Encoder: VIT
- VL Adapter: 为了解决图像特征序列过长导致的效率问题. 使用cross-attention module对encode后的图像进行压缩. 同时使用二维绝对位置编码, 以减轻可能丢失的位置细节信息.
实现效果: 将视觉特征序列压缩为固定长度为256的序列.
- LLM: Qwen-7B
模型训练
预训练
数据: 清理后的图像文本对
任务: 只训练encoder 和 VL adapter.
所有输入图片被resize到224*224
目标: 最小化输出文本与标记的交叉熵.
多任务预训练
使用更好的图文对数据, 同时进行上面几个任务的训练.
使用更大的分辨率448*448.
大部分层使用224, 小部分层使用448.
有监督微调
使用多模态和纯文本混合进行微调. 在这个阶段只训练LLM(Qwen-7B) 和 适配器(VL Adaptor).
评估
评估1: 传统任务Image caption 和 General Vision Query Answer的效果
图片物体检测: 为图片生成一个描述.
视觉相关问答: 给定图片-文本对, 生成回答.
评估2: Text-oriented Visual Question Answering
什么是text-oriented?
即更偏向于图片中的文字. 比如给模型一张表格图片, 希望模型能对表格里面的文字含义进行理解+推理.
评估3: Refer Expression Comprehension
在text指导下定位目标物体.
评估4: In-context learning能力的评估
评估5: 对于人类使用者的指令遵循程度的评估
TouchStone: 用于评估大规模多模态模型在真实用户行为环境下的指令理解与执行能力。在这个基准中,模型需要根据接收到的自然语言指令和相关图像进行一系列的操作,包括但不限于生成回答、执行动作或者解释图像内容
SEED-Bench: 它包含19000个多选题,每个题目都带有精确的人工标注,涵盖了空间和时间理解等多个评价维度。SEED-Bench旨在检验模型在多种多模态任务上的表现,特别关注模型是否能够理解并基于给定的多模态输入做出正确的决策。
MME: MME包含了14个子任务,用来衡量模型在感知和认知两个层面的整体能力。这个基准旨在通过多个应用场景下的多样任务来评测模型的综合性和实用性,确保模型在处理未见过的跨模态任务时也能具备良好的泛化能力和适应性。