第四阶段:数据标注(决定微调与对齐效果)
本阶段核心目标是为数据添加标签、构建结构化样本,满足监督微调(SFT)、偏好对齐(RLHF/DPO)、安全对齐等训练需求,提升模型的任务适配能力与安全性。
4.1 监督微调(SFT)数据标注
核心工作是构建高质量的“指令-输出”样本,让模型学习不同任务的响应逻辑,适配实际应用场景。
• 标注模板构建:设计覆盖模型核心能力的instruction模板,包括问答、创作(文案、文章)、总结、翻译、代码生成、逻辑推理、数学计算等类型,明确模板格式与要求。
• 高质量回答撰写:组织人工(或专家)为每个指令撰写准确、完整、逻辑连贯的回答,确保回答符合领域规范(如法律问题回答需符合法条,医疗问题回答需专业严谨)。
• 多轮对话构建:针对对话类模型,构建多轮“user-assistant”对话样本,确保对话逻辑连贯、上下文一致,覆盖不同对话场景(如咨询、投诉、请教等)。
• 领域专家标注:针对垂域大模型,邀请领域专家参与标注,确保专业领域数据的准确性(如金融数据中的风控分析、法律数据中的案例解读)。
• 标注质检:采用“抽检+复核”模式,对标注数据进行质量检查,抽检比例不低于10%,重点检查回答的准确性、完整性、逻辑一致性,对不合格样本进行返工,确保标注一致性。
典型格式示例:
| json { "instruction": "解释什么是AI大模型的预训练", "input": "", "output": "AI大模型的预训练是指在大规模无标注(或弱标注)数据上,对模型进行初始训练的过程。其核心目的是让模型学习通用的语言规律、知识图谱、逻辑关系等基础能力,无需针对具体任务进行优化。预训练数据通常为万亿级tokens的文本,涵盖多领域、多语种内容,通过自监督学习(如掩码语言模型、_next_sentence_prediction等任务),让模型掌握语言的上下文关联、语义理解等核心能力,为后续的监督微调(SFT)、偏好对齐奠定基础。" } |
|---|
4.2 偏好数据(RLHF/DPO/KTO)标注
核心工作是构建“偏好对”,让模型学习人类的偏好(如有用性、安全性、诚实度),优化模型的输出质量。
• 回复生成:针对同一query(指令),生成多个不同质量、不同风格的模型回复(或人工撰写不同回复),覆盖“优秀”“一般”“较差”等不同等级。
• 人工排序标注:组织标注人员对同一query的多个回复进行排序,明确“更好”“更差”“中立”的优先级,标注维度包括有用性(是否解决问题)、安全性(是否合规、无敏感内容)、诚实度(是否真实、无幻觉)、无害性(是否无歧视、无误导)、逻辑一致性(是否前后连贯)。
• 偏好对构建:将排序后的回复整理为“chosen(优选回复)”和“rejected(劣选回复)”的偏好对,确保每对偏好对的差异明确,符合人类偏好逻辑,用于后续的RLHF(强化学习人类反馈)或DPO(直接偏好优化)训练。
4.3 安全与红队数据标注
核心工作是构建安全对齐样本,提升模型的安全响应能力,避免模型输出有害、敏感内容。
• 恶意query库构建:收集、撰写各类恶意query(如诱导模型输出敏感内容、暴力信息、违法建议等),覆盖不同类型的安全风险场景。
• 拒绝话术标注:为每个恶意query标注标准的拒绝话术,要求拒绝话术礼貌、明确,同时引导用户提出合法、合理的需求,避免生硬拒绝。
• 安全对齐样本构建:标注安全合规的样本,包括对敏感问题的正确回应、对错误信息的纠正、对风险行为的提醒等,让模型学习安全合规的响应逻辑。
4.4 多模态标注(若适用)
• 图像标注:对图像数据进行caption(描述)标注、图文匹配标注、VQA(视觉问答)标注,确保图像与文本的关联性;同时进行目标检测、语义分割标注(若用于多模态理解任务)。
• 语音标注:对语音数据进行转写(将语音转换为文本)、情感标注(标注语音的情感倾向,如开心、愤怒、中性)、说话人分离标注(区分不同说话人的语音)。
• 视频标注:对视频数据进行字幕对齐、场景标注、目标跟踪标注,确保视频与文本、语音的同步性。
输出物:SFT数据集、偏好数据集、安全数据集、多模态标注数据集(若适用)、标注规范、标注质检报告、标注人员培训手册。