人工智能数据集建设全流程详解（之六）第六阶段：训练/微调中的数据工作（支撑模型训练）本阶段核心目标是保障数据在训练、微

第六阶段：训练/微调中的数据工作（支撑模型训练）

本阶段核心目标是保障数据在训练、微调过程中的稳定供给，监控数据质量，及时处理训练过程中的数据相关问题，优化训练效果。

6.1 预训练阶段的数据工作

• 数据加载与调度：采用分布式加载、shuffle（打乱）等方式，将训练数据加载到训练框架中，确保多机多卡训练的数据同步，提升训练效率；根据训练需求，选择流式训练（适合大规模数据）或全量缓存（适合小规模数据）方式。

• 训练过程监控：实时监控训练过程中的数据相关指标，如数据分布漂移（若某一领域数据占比异常变化）、loss异常（若某批数据导致loss骤升/骤降），及时定位异常数据。

• 数据迭代优化：根据训练过程中的异常情况，剔除坏数据（如导致模型崩溃、loss异常的样本）；针对模型表现薄弱的领域，补充相关数据，进行持续增量预训练，提升模型的通用能力。

6.2 微调阶段的数据工作（SFT + 偏好对齐）

• SFT数据组织：根据微调目标，筛选适配的SFT数据，增强指令多样性，避免指令单一导致模型过拟合；对困难样本（如复杂推理、专业领域问题）进行上采样，强化模型对困难任务的处理能力；针对垂域微调，补充足量的垂域数据，确保模型适配垂域场景。

• 偏好对齐数据组织：筛选高质量的偏好对（chosen/rejected），控制安全偏好权重，避免模型出现“过度拒绝”“讨好式回答”“奖励作弊”等问题；根据模型微调效果，调整偏好数据的比例与类型，优化模型的输出偏好。

• 小样本/情景学习数据构建：针对垂域微调或特定任务微调，构建少量高质量的小样本数据，设计优化的提示模板（Prompt），通过情景学习（Few-shot/Zero-shot），提升模型对特定任务的适配能力，减少微调数据量。

输出物：训练日志（含数据相关监控记录）、数据迭代报告、微调数据配置文件。