视觉大模型VLM到底需要什么样的数据？这些数据又是怎么来的？目录：一、为什么说 VLM 的灵魂是数据? 二、VLM需要

一、为什么说 VLM 的灵魂是数据?

二、VLM需要什么样的数据?

1.通用图文对

2.OCR 数据(文字识别)

3.Visual Grounding & Counting(定位与计数)

\4. 3D 空间理解

5.Video + STEM + GUI 数据

三、数据怎么来？--从爬虫到合成，再到智能构造

1.真实世界数据爬取+清洗

2.自动标注: 低成本构造任务数据的利器

3.数据增强: 让模型习惯“世界不完美”

4.VLM专属数据构造任务: 多态、多任务、多推理链

5.LLM合成数据: 大模型喂大模型的“自我进化”

一句话总结: VLM的边界，数据说了算!

“模型的能力边界，往往由数据决定。”--这是在构建视觉大模型(VLM)时，最值得铭记的一句话。

一、为什么说 VLM 的灵魂是数据？

从GPT类语言大模型的崛起我们已经学到一课: 模型架构固然重要，但真正撑起大模型智能的是高质量、大规模、多样化的数据。在视觉-语言大模型(VLM)中，这句话尤为真实。

图像与文本配对的规模决定了模型是否具备跨模态的基础理解能力；

丰富的数据任务类型决定了模型是否能应对多样的推理与生成任务；

数据的“细节维度”(如grounding、3D空间理解、OCR等)决定了模型能否做到精准定位、交互理解和推理。

接下来我会为大家介绍一下，在 Seed VL 1.5中VLM构建的一个全方位、全任务、全态的数据体系。

AI大模型全套学习资源【点击蓝字获取】

二、VLM需要什么样的数据?

VLM 的数据体系大致分为以下几大类，每一类都有独特的构建逻辑和目标：

1.通用图文对

这是最基础的图文数据，主要可以来自互联网爬虫。

有同学可能会问，互联网数据那么多，如何找到我们需要的高相关性高质量数据呢?

数据相关性提取、低质量数据过滤能获取满意的数据：

图文配对相似度筛选(如用CLIP 相似度过滤)，去掉相似度低的;

分辨率与尺寸清洗，去掉分辨率过低，或者尺寸不符合规定的图像；

去掉超长或超短的文本；

图像去重、URL黑名单过滤等。

目的: 构建 VLM 的“语言+图像”基本联结能力。

2.OCR 数据(文字识别)

文本识别是VLM的重要能力，不仅需要识别“是什么”，还要识别“在哪儿”。数据来源可以包含文档、场景文本、表格、图表、流程图等:

数据增强是一种很好的增加数据数量和质量的手段:

图表增强: 从图表中自动提取文字和数据构建结构化的图-文对

图表问答: 基于图表自动构造问答对(如:"What is the value of log(C/H) forSigmoid Clouds?")

图像的形变增强: 透视变化→模拟拍照时角度歪斜的情况:纸张弯折→模拟扫描文档时的弧形变形;起皱折痕→ 模拟现实中揉皱纸张后的形态。

常用增强: 随机旋转/缩放→模拟拍照角度变化;加入噪声→模拟模糊、污渍、打印噪声;随机遮挡→模拟文字被部分遮挡的情况;色彩变换→模拟拍照光线、色调变化

OCR任务的数据增强，不仅是图像处理技巧，更是让模型“接近现实”的桥梁。让模型在“非理想图像”条件下仍能识别文本;提高对现实中低质量图像(如低分辨率、拍照歪斜、光照不均)的鲁棒性

3. Visual Grounding & Counting(定位与计数)

视觉大模型的目标，不仅是让模型看懂图像内容，更是要看准目标位置、识别目标数量，实现空间感知能力。这就离不开两个关键任务:

Grounding: 图文对齐的“定位”任务，告诉模型“图中提到的某个词，具体在哪儿”

Counting: 计数任务，要求模型不仅定位目标，还要数清楚图中有几个该目标。

自动标注是一种有效降低标注成本的方法

复用开源数据集: 如 Objects365、Openlmages、RefCOCO 等，并清洗其中的错误或冗余标签

利用模型自动标注: 如使用 GroundingDINO 根据图像中的文本自动生成定位框

质量控制机制: 通过 CLIP 相似度模型筛除低质量样本，保证标注可信

结合互联网数据扩展数据量: 生成上亿条样本，无需逐条人工标注。

目的: 构建模型的空间定位能力和目标感知能力。

4. 3D 空间理解

从二维走向三维，是高级视觉能力的标志

自动标注构造方式如使用 DepthAnything V2 从图像中自动估计深度差

目的: 为 VLM 注入“空间感知”的能力。

5. Video +STEM+GUl 数据

为了让VLM不仅“看图说话”，还能：

理解视频: 做caption、动作识别、视频问答等

做数学题: 能让模型做不同学科的题

操作界面: 对U界面上的各个部分进行OCR和理解等

目的: 拓展模型从图像理解到任务执行、复杂推理的能力。

三、* 数据怎么来？--从爬虫到合成，再到智能构造*

在构建视觉-语言大模型(VLM)的过程中，“数据怎么来”并不是一个简单的抓取问题。它背后包含了多个环节、技术与策略的配合。从互联网爬虫到自动标注，从数据增强到合成生成，每一步都在为模型“喂入”更聪明、更真实、更泛化的数据。

1.真实世界数据爬取+清洗

第一步仍然是最大规模的数据抓取:

从互联网大规模爬虫获取图文对、图表、文档、视频帧、网页等多模态数据；

使用 CLIP 相似度计算清洗图文对，剔除匹配度低的样本；

图像去重、URL黑名单过滤，保证多样性和唯一性；

对于表格、图表类图像，结合文字区域和结构信息保留高质量样本；

这一阶段主要是“筛沙取金”，为后续构造任务提供干净的底料。

2.自动标注: 低成本构造任务数据的利器

VLM中很多任务(如 grounding、counting)传统上需要人工逐个标注边框、位置、数量，极其费力。而 Seed VL 1.5 展现了自动标注的强大力量:

使用 Grounding DINO 自动生成文本中的名词与图像中物体的定位框；

利用 CLIP 对图文框关系进行相似度过滤去掉低质量标注;

对于点标注、计数等任务，结合开源模型(如Molmo)在互联网图像上自动标注目标中心点或数量;

最终构造了数亿级别的Grounding/Counting样本，大幅降低人工成本。

自动标注不仅省人力，还能快速扩展数据类型与规模，是现代VLM训练的核心武器之一。

3.数据增强: 让模型习惯“世界不完美”

现实世界图像往往带有各种“干扰”: 拍歪了、纸皱了、光线不好、数据缺失......模型要学会处理这些问题，就需要强大的数据增强策略:

OCR增强: 模拟文档扭曲、起皱、倾斜、糊、部分遮挡；

图表QA增强: 自动生成图表中数字与文字的问答对;

视频增强: 从视频中选帧构造caption或动作识别任务；

结构扰动: 打乱文字块位置、遮挡部分表格区域，训练模型鲁棒性。

数据增强的目标: 让模型见过“各种乱七八糟的世界”，从而在真实场景下表现更好。

4.VLM专属数据构造任务: 多模态、多任务、多推理链

视觉大模型不只是看图识字，更要完成复杂任务。因此可以构建大量“任务驱动型”的训练数据:

图文问答(VQA) : 从图中抽取关键信息回答问题;

图文推理(例如“哪个物体更大?”“A和B谁在上方?”)

表格QA/图表理解: 定位表格中的值并回答问题；

GUI界面理解: 识别界面元素、推断操作步骤。

这些数据多数依赖合成标注、模板生成、语义抽取、结构理解等机制，最终组成 VLM 高阶能力的核心来源。

5.LLM合成数据: 大模型喂大模型的“自我进化”

视觉任务中也需要语言理解与生成。可以通过多轮对话、任务指令、长文本推理等方式合成出来的，确保多样性与复杂度。

例如在llm中，可以通过多样化的 prompt生成和 answer合成，模拟真实用户输入，创造任务多样性:

Prompt多样化: 形式、难度、长度、风格都不同；

Answer多样性: 从GPT-4生成长篇推理回答到step-by-step任务执行；

一句话总结: VLM的边界，数据说了算！