什么是数据集

8 阅读6分钟

什么是数据集 —— 稀土掘金

一、引言

在大模型的世界里,数据集是模型的 “粮食” —— 没有数据,再强大的模型也无法学习;数据质量差,模型的输出也会差。很多新手入门大模型时,容易忽略数据集的重要性,把精力都放在模型和算法上,最终导致微调效果不佳。本文从新手视角出发,用通俗的语言讲清楚什么是数据集、数据集的分类、高质量数据集的标准、以及数据集的准备方法,帮大家打好大模型落地的 “数据基础”。

二、什么是数据集 —— 大模型的 “教材” 和 “练习题”

简单来说,数据集是用于训练、验证、测试大模型的样本集合,包含模型需要学习的知识和规律。

· 类比理解:如果把大模型比作一个学生,数据集就是学生的 “教材”(训练集)、“作业”(验证集)和 “考试卷”(测试集);

· 核心构成:数据集通常由输入数据标签数据组成,比如微调客服模型时,“用户提问” 是输入数据,“客服回复” 是标签数据;

· 核心作用:模型通过学习数据集中的样本,掌握输入到输出的映射规律,最终具备解决特定问题的能力。

举个例子:当你用 1000 条 “用户问产品续航 + 客服答续航参数” 的样本微调模型时,这个样本集合就是数据集,模型学习后,就能精准回答关于产品续航的问题。

三、数据集的核心分类 —— 按用途和格式划分

数据集可以从不同维度分类,新手需要重点掌握按用途分类按格式分类两种方式,这直接关系到微调的效果。

(一)按用途分类 —— 训练集、验证集、测试集*

这是数据集最核心的分类方式,三者缺一不可,且必须严格区分,避免数据泄露。

1. 

训练集(Training Set)

2. 

o 作用:模型的 “教材”,是模型学习知识的主要来源,占数据集的 70%-80%;

o 要求:样本数量充足、覆盖全面,能体现业务场景的核心规律;

o 例子:用于微调客服模型的 1000 条优质客服对话样本,大部分都是训练集。

3. 

验证集(Validation Set)

4. 

o 作用:模型的 “作业”,用于在训练过程中评估模型效果,调整参数(如学习率、训练轮次),避免过拟合;

o 要求:与训练集同源,但不能重叠,占数据集的 10%-15%;

o 例子:从 1000 条客服对话中抽取 100 条作为验证集,训练时用它监控模型的损失值变化。

5. 

测试集(Test Set)

6. 

o 作用:模型的 “考试卷”,用于在训练完成后,客观评估模型的最终效果;

o 要求:与训练集、验证集完全独立,样本分布与真实场景一致,占数据集的 10%-15%;

o 例子:用从未见过的 100 条用户提问测试微调后的客服模型,判断回答准确率。

核心原则:训练集、验证集、测试集必须严格划分,不能有重叠样本,否则会导致评估结果失真。

(二)按格式分类 —— 结构化数据、非结构化数据、多模态数据

不同格式的数据适配不同的模型任务,新手需根据业务需求选择。

1. 

结构化数据

2. 

o 特点:数据格式固定、有明确的结构,如表格、数据库、CSV 文件;

o 适配任务:分类、回归、数据分析等,如用户画像分析、销量预测;

o 例子:包含 “用户 ID、年龄、购买记录” 的表格数据。

3. 

非结构化数据

4. 

o 特点:没有固定格式,是大模型最常处理的数据类型,如文本、图片、音频;

o 适配任务:对话生成、文本摘要、图片识别等,如客服对话、文档总结;

o 例子:客服聊天记录、新闻文章、产品说明书。

5. 

多模态数据

6. 

o 特点:融合两种或以上数据类型,如文本 + 图片、文本 + 语音;

o 适配任务:图文生成、语音转文字、视频字幕生成;

o 例子:包含 “图片 + 文字描述” 的样本集、“语音 + 文字转录” 的样本集。

四、高质量数据集的 3 个核心标准 —— 决定微调效果的关键

数据集的质量直接决定模型的效果,新手判断数据集质量,只需把握 3 个核心标准:

1. 准确性:数据内容必须真实、正确,不能有错误信息。比如客服数据中的产品参数必须准确,否则模型会输出错误回答;

2. 相关性:数据必须贴合业务需求,不能包含无关内容。比如微调办公助手,就不能用医疗数据作为训练集;

3. 多样性:数据要覆盖业务场景的不同情况,避免单一化。比如客服数据要覆盖售前、售后、投诉等不同场景,不能只包含售前咨询。

五、新手如何准备数据集 ——4 步完成,零门槛

准备数据集不需要复杂工具,新手按以下 4 步操作即可,全程纯手动也能完成:

1. 需求梳理:明确模型要解决的问题,确定数据的主题和范围。比如要做智能客服,就聚焦客服对话和产品知识;

2. 数据收集:通过企业内部文档、公开数据集、人工标注等方式收集数据。新手可先从公开数据集入手,如 Hugging Face 上的开源数据;

3. 数据清洗:删除重复数据、冗余内容、错误信息,修正语义不通的样本,这是提升数据质量的核心步骤;

4. 格式统一:将数据转换成模型能识别的格式,比如微调对话模型时,统一为 “用户:XXX\n 助手:XXX” 的格式。

六、总结

数据集是大模型的 “生命线”,也是新手入门大模型的第一个核心知识点。很多时候,微调效果不好,不是模型和算法的问题,而是数据集的质量不达标。

新手入门时,与其纠结选哪个模型,不如先花时间准备一份高质量的数据集 —— 好的数据,能让普通模型发挥出超预期的效果。

分享一个支持数据集清洗和格式转换的工具平台,能帮新手快速处理数据,提升微调效率:www.llamafactory.com.cn/register?ut…