2024-08-28,由普林斯顿大学和 Meta 发布创建创建Instruct-SkillMix。这是一种自动化的方法,用于创建多样化、高质量的SFT数据。
一、目前遇到困难和挑战:
- 训练数据的多样性和质量:
传统的监督式微调(SFT)在公共数据集上1未能产生良好的性能,这可能是因为训练数据缺乏多样性和质量。
- 高成本和复杂:
从手工标注者那里收集SFT数据成本高昂,而且复杂。
- 众包数据的不均匀性:
众包数据集通常质量参差不齐,可能包含许多冗余或干扰信息。
Instruct-SkillMix:用于为大型语言模型(LLM)指令调整创建多样化、高质量的监督式微调(SFT)数据。该流程分为两个阶段:技能提取和数据生成。
二、解决方案:
-
技能提取(Skill Extraction):通过LLM从现有数据集中提取关键的“技能”,或者直接通过提示模型来获取这些技能。
-
数据生成(Data Generation):利用LLM生成展示随机技能组合的(指令,响应)数据对,以提高多样性和难度。
-
自动化流程:与以往需要人工设计元素(如选择主题、词汇等)的方法不同,Instruct-SkillMix流程完全自动化,除了向强大LLM提出的简短提示外,不包含人为设计元素。
-
适应性:Instruct-SkillMix
流程不仅适用于简单的指令遵循,而且似乎可以扩展到安全性/对齐、数学问答等其他设置。
通过这些方法,展示即使在没有使用强化学习(RL)方法的情况下,也能通过SFT显著提高模型在指令遵循基准测试中的性能。
补充信息:
技能提取阶段识别出的技能是大型语言模型(LLM)在理解和执行指令时所需的各种能力。
这些技能涵盖了广泛的领域,包括但不限于以下几个例子:
-
批判性思维(Critical Thinking):分析和评估信息,形成判断的能力。
-
分析技能(Analytical Skills):对复杂数据或情况进行详细检查,以识别模式、原因和结果。
-
内容制作技能(Content Production Skills):创建、编辑和发布内容的能力,可能涉及写作、视觉设计或其他媒体制作。
-
高级科学知识(Advanced Scientific Knowledge):对科学原理和发现的深入理解。
-
数据和信息分析(Data and Information Analysis):处理和解释数据,以得出有意义的结论。
-
语言和写作技能(Language and Writing Skills):使用语言进行有效写作和表达的能力。
-
技术理解(Understanding Technologies):对各种技术的工作原理和应用的理解。
-
历史和文化能力(Historical and Cultural Competence):对历史事件和文化差异的了解和认识。
-
图形和设计知识(Graphic and Design Knowledge):涉及视觉艺术和设计原理的知识。
-
认知创造力(Cognitive Creativity):创造性思维和创新的能力。
等等
这些技能是通过与LLM的自动化对话和分析现有数据集来提取的。
技能提取的目的是为了生成高质量的(指令,响应)数据对,这些数据对在后续的监督式微调(SFT)中使用,以提高模型在执行指令时的性能。