2024-08-06 ,由腾讯优图实验室、上海交通大学联合发布,填补大型语言模型(LLMs)指令调优过程中的数据评估和选择问题,将其分为基于质量、基于多样性和基于重要性的方法。
一、目前遇到问题和挑战
随着大模型的快速发展,指令调优在提升模型性能和泛化能力方面发挥着至关重要的作用。
虽然我们有大量的公开指令数据集,但如果我们尝试用这些数据集去训练大型语言模型(LLM),可能并不是一个最有效的方法。事实上,我们需要找到那些真正有价值的数据点来进行训练。
为了解决这个问题,自然语言处理(NLP)和深度学习领域的专家们已经提出了一些评估和挑选数据的方法。但是,当专注于通过指令来调整模型时,发现还缺少一些关键知识:
- 评估指标的选择:我们还没有确定哪些数据评估指标最适合用来衡量指令数据的质量。
- 整合到选择机制:我们还不知道如何将这些评估指标有效地整合到数据挑选的过程中。
因此,我们需要进一步的研究来填补这些知识空白,以便更有效地进行数据评估和选择,从而提高大型语言模型在指令调优方面的性能。
二、解决方案:
提升大型语言模型(LLMs)在多种NLP任务上的应用效果 , 通过指令调优来优化模型,才能更好地理解和执行任务相关的指令。
研究了各种指令调优数据集的数据评估和选择方法 ,主要从质量、多样性和重要性三个方面进行了分类和阐述:
添加图片注释,不超过 140 字(可选)
1、基于质量的方法:
侧重于根据数据的质量进行评估和选择。
采用数据评分和质量评估等质量控制措施,以确保模型训练的有效性。
主要是四种测试方法:
- 手工制定的指标:利用传统的语言学分析和可读性测量方法来评估数据质量,例如词汇丰富度、语法正确性、以及语义相似性等。
- 基于模型的指标:使用可训练的模型来预测每个指令数据点的质量指标,如困惑度(Perplexity)、一致性、相关性、保持度、参与度和基础性等。
- GPT得分:利用OpenAI的APIs,例如GPT-3或GPT-4,对指令调优数据集进行自动评分,以评估数据点的质量。
- 人类评估:通过人类标注者对数据点进行标注和评分,以评估其在多个维度上的质量,如有帮助性、诚实性和无害性。
2、基于多样性的方法:
强调选择涵盖多样化主题、背景或语言模式的数据。
通过包含多样化的数据点,模型能够更好地泛化,并在各种任务中表现良好。
3、基于重要性的方法:
优先选择被认为对模型训练重要或关键的数据。
这可以包括选择代表常见任务或场景的数据,或选择已知对模型性能有显著影响的数据。
这些方法在提高大型语言模型指令调优训练的效率和有效性方面发挥着重要作用。