目录:
一、为什么说 VLM 的灵魂是数据?
二、VLM需要什么样的数据?
1.通用图文对
2.OCR 数据(文字识别)
3.Visual Grounding & Counting(定位与计数)
\4. 3D 空间理解
5.Video + STEM + GUI 数据
三、数据怎么来?--从爬虫到合成,再到智能构造
1.真实世界数据爬取+清洗
2.自动标注: 低成本构造任务数据的利器
3.数据增强: 让模型习惯“世界不完美”
4.VLM专属数据构造任务: 多态、多任务、多推理链
5.LLM合成数据: 大模型喂大模型的“自我进化”
一句话总结: VLM的边界,数据说了算!
“模型的能力边界,往往由数据决定。”--这是在构建视觉大模型(VLM)时,最值得铭记的一句话。
一、为什么说 VLM 的灵魂是数据?
从GPT类语言大模型的崛起我们已经学到一课: 模型架构固然重要,但真正撑起大模型智能的是高质量、大规模、多样化的数据。在视觉-语言大模型(VLM)中,这句话尤为真实。
图像与文本配对的规模决定了模型是否具备跨模态的基础理解能力;
丰富的数据任务类型决定了模型是否能应对多样的推理与生成任务;
数据的“细节维度”(如grounding、3D空间理解、OCR等)决定了模型能否做到精准定位、交互理解和推理。
接下来我会为大家介绍一下,在 Seed VL 1.5中VLM构建的一个全方位、全任务、全态的数据体系。
二、VLM需要什么样的数据?
VLM 的数据体系大致分为以下几大类,每一类都有独特的构建逻辑和目标:
1.通用图文对
这是最基础的图文数据,主要可以来自互联网爬虫。
有同学可能会问,互联网数据那么多,如何找到我们需要的高相关性高质量数据呢?
数据相关性提取、低质量数据过滤能获取满意的数据:
图文配对相似度筛选(如用CLIP 相似度过滤),去掉相似度低的;
分辨率与尺寸清洗,去掉分辨率过低,或者尺寸不符合规定的图像;
去掉超长或超短的文本;
图像去重、URL黑名单过滤等。
目的: 构建 VLM 的“语言+图像”基本联结能力。
2.OCR 数据(文字识别)
文本识别是VLM的重要能力,不仅需要识别“是什么”,还要识别“在哪儿”。数据来源可以包含文档、场景文本、表格、图表、流程图等:
数据增强是一种很好的增加数据数量和质量的手段:
图表增强: 从图表中自动提取文字和数据构建结构化的图-文对
图表问答: 基于图表自动构造问答对(如:"What is the value of log(C/H) forSigmoid Clouds?")
图像的形变增强: 透视变化→模拟拍照时角度歪斜的情况:纸张弯折→模拟扫描文档时的弧形变形;起皱折痕→ 模拟现实中揉皱纸张后的形态。
常用增强: 随机旋转/缩放→模拟拍照角度变化;加入噪声→模拟模糊、污渍、打印噪声;随机遮挡→模拟文字被部分遮挡的情况;色彩变换→模拟拍照光线、色调变化
OCR任务的数据增强,不仅是图像处理技巧,更是让模型“接近现实”的桥梁。让模型在“非理想图像”条件下仍能识别文本;提高对现实中低质量图像(如低分辨率、拍照歪斜、光照不均)的鲁棒性
3. Visual Grounding & Counting(定位与计数)
视觉大模型的目标,不仅是让模型看懂图像内容,更是要看准目标位置、识别目标数量,实现空间感知能力。这就离不开两个关键任务:
Grounding: 图文对齐的“定位”任务,告诉模型“图中提到的某个词,具体在哪儿”
Counting: 计数任务,要求模型不仅定位目标,还要数清楚图中有几个该目标。
自动标注是一种有效降低标注成本的方法
复用开源数据集: 如 Objects365、Openlmages、RefCOCO 等,并清洗其中的错误或冗余标签
利用模型自动标注: 如使用 GroundingDINO 根据图像中的文本自动生成定位框
质量控制机制: 通过 CLIP 相似度模型筛除低质量样本,保证标注可信
结合互联网数据扩展数据量: 生成上亿条样本,无需逐条人工标注。
目的: 构建模型的空间定位能力和目标感知能力。
4. 3D 空间理解
从二维走向三维,是高级视觉能力的标志
自动标注构造方式如使用 DepthAnything V2 从图像中自动估计深度差
目的: 为 VLM 注入“空间感知”的能力。
5. Video +STEM+GUl 数据
为了让VLM不仅“看图说话”,还能:
理解视频: 做caption、动作识别、视频问答等
做数学题: 能让模型做不同学科的题
操作界面: 对U界面上的各个部分进行OCR和理解等
目的: 拓展模型从图像理解到任务执行、复杂推理的能力。
三、* 数据怎么来?--从爬虫到合成,再到智能构造*
在构建视觉-语言大模型(VLM)的过程中,“数据怎么来”并不是一个简单的抓取问题。它背后包含了多个环节、技术与策略的配合。从互联网爬虫到自动标注,从数据增强到合成生成,每一步都在为模型“喂入”更聪明、更真实、更泛化的数据。
1.真实世界数据爬取+清洗
第一步仍然是最大规模的数据抓取:
从互联网大规模爬虫获取图文对、图表、文档、视频帧、网页等多模态数据;
使用 CLIP 相似度计算清洗图文对,剔除匹配度低的样本;
图像去重、URL黑名单过滤,保证多样性和唯一性;
对于表格、图表类图像,结合文字区域和结构信息保留高质量样本;
这一阶段主要是“筛沙取金”,为后续构造任务提供干净的底料。
2.自动标注: 低成本构造任务数据的利器
VLM中很多任务(如 grounding、counting)传统上需要人工逐个标注边框、位置、数量,极其费力。而 Seed VL 1.5 展现了自动标注的强大力量:
使用 Grounding DINO 自动生成文本中的名词与图像中物体的定位框;
利用 CLIP 对图文框关系进行相似度过滤去掉低质量标注;
对于点标注、计数等任务,结合开源模型(如Molmo)在互联网图像上自动标注目标中心点或数量;
最终构造了数亿级别的Grounding/Counting样本,大幅降低人工成本。
自动标注不仅省人力,还能快速扩展数据类型与规模,是现代VLM训练的核心武器之一。
3.数据增强: 让模型习惯“世界不完美”
现实世界图像往往带有各种“干扰”: 拍歪了、纸皱了、光线不好、数据缺失......模型要学会处理这些问题,就需要强大的数据增强策略:
OCR增强: 模拟文档扭曲、起皱、倾斜、糊、部分遮挡;
图表QA增强: 自动生成图表中数字与文字的问答对;
视频增强: 从视频中选帧构造caption或动作识别任务;
结构扰动: 打乱文字块位置、遮挡部分表格区域,训练模型鲁棒性。
数据增强的目标: 让模型见过“各种乱七八糟的世界”,从而在真实场景下表现更好。
4.VLM专属数据构造任务: 多模态、多任务、多推理链
视觉大模型不只是看图识字,更要完成复杂任务。因此可以构建大量“任务驱动型”的训练数据:
图文问答(VQA) : 从图中抽取关键信息回答问题;
图文推理(例如“哪个物体更大?”“A和B谁在上方?”)
表格QA/图表理解: 定位表格中的值并回答问题;
GUI界面理解: 识别界面元素、推断操作步骤。
这些数据多数依赖合成标注、模板生成、语义抽取、结构理解等机制,最终组成 VLM 高阶能力的核心来源。
5.LLM合成数据: 大模型喂大模型的“自我进化”
视觉任务中也需要语言理解与生成。可以通过多轮对话、任务指令、长文本推理等方式合成出来的,确保多样性与复杂度。
例如在llm中,可以通过多样化的 prompt生成和 answer合成,模拟真实用户输入,创造任务多样性:
Prompt多样化: 形式、难度、长度、风格都不同;
Answer多样性: 从GPT-4生成长篇推理回答到step-by-step任务执行;
一句话总结: VLM的边界,数据说了算!