基本信息
| 标题 | 地址 | 发布时间 | 收录 |
|---|---|---|---|
| Instruction Tuning With Loss Over Instructions | arxiv.org/pdf/2405.14… | 2024 年 10月 | NeurIPS 2024 |
核心概念
在指令建模(Instruction Modelling, IM)的语境下,其核心概念主要围绕对传统微调目标的重新定义。根据来源,其要点如下:
- 损失函数的范围转变:IM 的核心在于将损失函数应用于指令(Instruction)和提示词(Prompt)部分,而不仅仅是像传统指令微调那样仅针对输出部分。
- 性能提升机制:通过对指令进行建模,该方法能有效提升模型在 MMLU、HumanEval 等 21 个基准测试中的表现,甚至在 AlpacaEval 1.0 上实现了超过 100% 的性能增长。
- 两大关键影响因素:IM 的有效性高度依赖于训练数据的指令与输出长度比例(长指令/短输出效果更好),以及训练样本的数量。
- 核心科学假设:该方法的成功归功于减少了模型对特定指令微调数据集的过拟合。在样本较少的低资源场景下,它符合“表面对齐假设(SAH)”,能帮助模型更稳健地对齐目标风格。
实验效果
在指令建模(IM)的语境下,实验效果证明了这种简单的方法在多种场景中能有效提升大语言模型(LM)的性能。具体表现如下:
- 广泛的基准测试验证: IM 的有效性在 21 个多样化的基准测试中得到了验证,包括传统 NLP 任务(如 MMLU、TruthfulQA 和 HumanEval)以及开放式生成基准(如 MT-Bench 和 AlpacaEval)。
- 显著的性能提升: 在最理想的实验案例中,IM 将模型在 AlpacaEval 1.0 上的性能提升了 100% 以上。
- 关键因素的制约: 实验表明,有两个因素显著影响 IM 的效果。第一是训练数据中指令与输出长度的比例(长指令配合短输出时效果更好);第二是训练样本的数量。
- 适用场景: 实验观察到,在遵循“表面对齐假设(SAH)”的低资源场景(即训练样本较少时),IM 的优势尤为突出。
- 改进归因: 通过进一步分析,研究者确认这种性能改进可以归功于减少了模型对指令微调数据集的过拟合。
该研究明确指出,IM 并非要取代现有的微调流程,而是为指令微调提供实用的指南,特别是在资源受限的情况下。
关键因素
研究指出了影响指令建模(IM)有效性的两个关键因素:
- 指令与输出长度的比例:当训练数据包含较长的指令和较短的回答时,IM 的提升效果最为显著。
- 训练样本的数量:在训练样本较少的低资源场景下,IM 展现出更强的优势。
这些因素与“表面对齐假设(SAH)”密切相关。研究分析认为,IM 之所以有效,是因为它减少了模型对特定微调数据集的过拟合,使其能够更好地泛化到其他任务中。
适用场景
在指令建模(IM)的语境下,该研究指出了两个最能发挥其优势的适用场景:
- “长指令、短输出”的数据集: 当训练数据呈现出指令部分非常冗长,而对应的输出部分非常简短的特征时,IM 的效果最为显著。
- 低资源(小样本)微调: 在训练样本数量较少的场景下,IM 展现出极大的优势,这符合“表面对齐假设(SAH)”,即模型只需少量数据即可进行风格对齐。
在这些特定场景下,IM 被建议作为现有微调流程的实用补充指南,旨在通过减少模型对指令微调数据集的过拟合,来提升其在 NLP 任务(如 MMLU、HumanEval)及生成任务(如 AlpacaEval)中的综合表现。