人工智能数据集建设全流程详解（之一）第一阶段：数据集设计（上游核心，决定模型上限）** 本阶段核心目标是明确“需要什么样

第一阶段：数据集设计（上游核心，决定模型上限）**

本阶段核心目标是明确“需要什么样的数据”，结合模型定位，完成数据需求规划、来源规划及结构设计，为后续数据采集与处理提供明确依据。

1.1 明确模型定位与数据需求

核心工作是锚定模型用途，拆解数据需求，明确数据的核心约束条件，输出标准化的需求文档。

• 模型类型界定：明确模型定位为通用基座大模型、垂域专用大模型（金融、法律、医疗等）、代码大模型、多模态大模型、对话大模型或工具调用类大模型，不同类型模型的数据需求差异显著。

• 能力边界明确：确定模型需具备的核心能力，如语言理解、文本生成、逻辑推理、数学计算、长文本处理、多轮对话、工具调用、安全合规响应等，对应规划相关类型数据。

• 数据语言规划：明确数据的语种要求（单语/多语）、语种比例分配，若涉及多语，需明确各语种的覆盖范围（如中文含简体/繁体、方言等）。

• 领域分布规划：根据模型定位，确定数据的领域覆盖范围（如科技、法律、医疗、金融、教育、文学、政务等），并分配各领域的权重，确保数据分布与模型应用场景匹配（如金融大模型需重点覆盖信贷、风控、合规等领域）。

• 数据时效性要求：明确数据是否需要具备时效性，如新闻类、行业动态类数据需确保最新，而历史文献、基础理论类数据可适当放宽时效性要求，明确数据的时间范围约束。

• 安全红线界定：明确数据过滤的核心规则，严禁纳入黄赌毒、暴力、政治敏感、隐私信息、歧视性内容、误导性内容等，制定明确的排除标准。

输出物：数据需求说明书、数据领域配比方案、数据合规规范、数据质量标准细则。

1.2 数据来源规划

核心工作是筛选合法、可用的数据源，平衡数据质量、成本与合规性，明确各数据源的获取方式与授权要求。

• 公开数据集筛选：梳理国内外公开可用的数据集，包括书籍、百科全书、网页文本、学术论文、开源代码库、公开对话语料等，筛选符合需求的数据源，确认其授权协议（如CC协议），判断是否可用于商业研发。

• 合规授权数据获取：规划采购版权数据、与合作方合作获取数据、合法爬虫采集数据等方式，明确各数据源的授权流程、费用预算、使用范围，确保所有数据均具备合法授权。

• 自建数据规划：根据需求规划人工撰写数据、专家标注数据、用户脱敏对话数据等自建数据的规模与标准，明确自建数据的撰写/标注规范、质量要求及人员配置。

• 多模态数据规划（若适用）：针对多模态大模型，规划文本、图像、语音、视频等多类型数据的对应关系，明确各模态数据的采集标准与对齐要求（如图文配对、字幕与语音对齐）。

• 合规风险评估：对所有规划的数据源进行合规审查，评估版权风险、隐私风险，结合GDPR、《个人信息保护法》等法律法规，形成合规风险评估报告，明确风险防控措施。

输出物：数据源清单、数据授权文件清单、合规风险评估报告、数据获取流程规范。

1.3 数据规模与结构设计

核心工作是确定数据集的量级、格式与质量等级，确保数据结构符合模型训练、微调的需求，避免数据冗余或缺失。

• 数据量级规划：明确不同阶段的数据量级要求——预训练数据（万亿tokens级）、监督微调（SFT）数据（百万～亿级样本）、偏好对齐数据（RLHF/DPO/KTO，万～十万级样本），结合模型参数规模、训练目标，制定合理的token预算表。

• 数据格式设计：根据训练场景，设计标准化的样本格式，确保与模型训练框架兼容：

￮预训练数据：以纯文本段落、文档级连续文本为主，支持长文本连续输入；

￮ SFT数据：采用“指令-输入-输出”（instruction-input-output）结构，明确指令类型（问答、创作、总结、翻译等）；

￮对话数据：采用多轮“user-assistant”结构，明确角色标记，支持多轮对话逻辑连贯；

￮工具调用数据：采用“意图-槽位-API-思考-响应”（intent-slot-api-thought-response）结构，适配工具调用场景；

￮多模态数据：明确各模态数据的格式标准（如图像为JPG/PNG格式、语音为WAV格式）及对齐标识。

• 数据质量等级划分：将数据分为高、中、低三个质量等级，明确各等级的判断标准（如高质量数据为专家撰写、无错误、逻辑连贯；低质量数据为机器翻译劣质文本、短句无意义内容），不同质量等级的数据赋予不同的训练权重，优先使用高质量数据。

输出物：数据集结构规范、样本模板、token预算表、数据质量等级划分标准。