第一阶段:数据集设计(上游核心,决定模型上限)**
本阶段核心目标是明确“需要什么样的数据”,结合模型定位,完成数据需求规划、来源规划及结构设计,为后续数据采集与处理提供明确依据。
1.1 明确模型定位与数据需求
核心工作是锚定模型用途,拆解数据需求,明确数据的核心约束条件,输出标准化的需求文档。
• 模型类型界定:明确模型定位为通用基座大模型、垂域专用大模型(金融、法律、医疗等)、代码大模型、多模态大模型、对话大模型或工具调用类大模型,不同类型模型的数据需求差异显著。
• 能力边界明确:确定模型需具备的核心能力,如语言理解、文本生成、逻辑推理、数学计算、长文本处理、多轮对话、工具调用、安全合规响应等,对应规划相关类型数据。
• 数据语言规划:明确数据的语种要求(单语/多语)、语种比例分配,若涉及多语,需明确各语种的覆盖范围(如中文含简体/繁体、方言等)。
• 领域分布规划:根据模型定位,确定数据的领域覆盖范围(如科技、法律、医疗、金融、教育、文学、政务等),并分配各领域的权重,确保数据分布与模型应用场景匹配(如金融大模型需重点覆盖信贷、风控、合规等领域)。
• 数据时效性要求:明确数据是否需要具备时效性,如新闻类、行业动态类数据需确保最新,而历史文献、基础理论类数据可适当放宽时效性要求,明确数据的时间范围约束。
• 安全红线界定:明确数据过滤的核心规则,严禁纳入黄赌毒、暴力、政治敏感、隐私信息、歧视性内容、误导性内容等,制定明确的排除标准。
输出物:数据需求说明书、数据领域配比方案、数据合规规范、数据质量标准细则。
1.2 数据来源规划
核心工作是筛选合法、可用的数据源,平衡数据质量、成本与合规性,明确各数据源的获取方式与授权要求。
• 公开数据集筛选:梳理国内外公开可用的数据集,包括书籍、百科全书、网页文本、学术论文、开源代码库、公开对话语料等,筛选符合需求的数据源,确认其授权协议(如CC协议),判断是否可用于商业研发。
• 合规授权数据获取:规划采购版权数据、与合作方合作获取数据、合法爬虫采集数据等方式,明确各数据源的授权流程、费用预算、使用范围,确保所有数据均具备合法授权。
• 自建数据规划:根据需求规划人工撰写数据、专家标注数据、用户脱敏对话数据等自建数据的规模与标准,明确自建数据的撰写/标注规范、质量要求及人员配置。
• 多模态数据规划(若适用):针对多模态大模型,规划文本、图像、语音、视频等多类型数据的对应关系,明确各模态数据的采集标准与对齐要求(如图文配对、字幕与语音对齐)。
• 合规风险评估:对所有规划的数据源进行合规审查,评估版权风险、隐私风险,结合GDPR、《个人信息保护法》等法律法规,形成合规风险评估报告,明确风险防控措施。
输出物:数据源清单、数据授权文件清单、合规风险评估报告、数据获取流程规范。
1.3 数据规模与结构设计
核心工作是确定数据集的量级、格式与质量等级,确保数据结构符合模型训练、微调的需求,避免数据冗余或缺失。
• 数据量级规划:明确不同阶段的数据量级要求——预训练数据(万亿tokens级)、监督微调(SFT)数据(百万~亿级样本)、偏好对齐数据(RLHF/DPO/KTO,万~十万级样本),结合模型参数规模、训练目标,制定合理的token预算表。
• 数据格式设计:根据训练场景,设计标准化的样本格式,确保与模型训练框架兼容:
○ 预训练数据:以纯文本段落、文档级连续文本为主,支持长文本连续输入;
○ SFT数据:采用“指令-输入-输出”(instruction-input-output)结构,明确指令类型(问答、创作、总结、翻译等);
○ 对话数据:采用多轮“user-assistant”结构,明确角色标记,支持多轮对话逻辑连贯;
○ 工具调用数据:采用“意图-槽位-API-思考-响应”(intent-slot-api-thought-response)结构,适配工具调用场景;
○ 多模态数据:明确各模态数据的格式标准(如图像为JPG/PNG格式、语音为WAV格式)及对齐标识。
• 数据质量等级划分:将数据分为高、中、低三个质量等级,明确各等级的判断标准(如高质量数据为专家撰写、无错误、逻辑连贯;低质量数据为机器翻译劣质文本、短句无意义内容),不同质量等级的数据赋予不同的训练权重,优先使用高质量数据。
输出物:数据集结构规范、样本模板、token预算表、数据质量等级划分标准。