Instruct-SkillMix自动化创建多样化、高质量的SFT数据2024-08-28，由普林斯顿大学和 Meta

2024-08-28，由普林斯顿大学和 Meta 发布创建创建Instruct-SkillMix。这是一种自动化的方法，用于创建多样化、高质量的SFT数据。

一、目前遇到困难和挑战：

传统的监督式微调（SFT）在公共数据集上1未能产生良好的性能，这可能是因为训练数据缺乏多样性和质量。

从手工标注者那里收集SFT数据成本高昂，而且复杂。

众包数据集通常质量参差不齐，可能包含许多冗余或干扰信息。

Instruct-SkillMix：用于为大型语言模型（LLM）指令调整创建多样化、高质量的监督式微调（SFT）数据。该流程分为两个阶段：技能提取和数据生成。

二、解决方案：

技能提取（Skill Extraction）：通过LLM从现有数据集中提取关键的“技能”，或者直接通过提示模型来获取这些技能。
数据生成（Data Generation）：利用LLM生成展示随机技能组合的（指令，响应）数据对，以提高多样性和难度。
自动化流程：与以往需要人工设计元素（如选择主题、词汇等）的方法不同，Instruct-SkillMix流程完全自动化，除了向强大LLM提出的简短提示外，不包含人为设计元素。
适应性：Instruct-SkillMix

流程不仅适用于简单的指令遵循，而且似乎可以扩展到安全性/对齐、数学问答等其他设置。

通过这些方法，展示即使在没有使用强化学习（RL）方法的情况下，也能通过SFT显著提高模型在指令遵循基准测试中的性能。

补充信息：

技能提取阶段识别出的技能是大型语言模型（LLM）在理解和执行指令时所需的各种能力。

这些技能涵盖了广泛的领域，包括但不限于以下几个例子：

等等

这些技能是通过与LLM的自动化对话和分析现有数据集来提取的。

技能提取的目的是为了生成高质量的（指令，响应）数据对，这些数据对在后续的监督式微调（SFT）中使用，以提高模型在执行指令时的性能。