一篇非常有趣的论文,题为《How Do Large Language Models Acquire Factual Knowledge During Pretraining?》。这篇论文揭示了AI训练中的一些引人入胜的方面,特别是数据质量在模型知识获取中的关键作用。
主要发现
数据量悖论
一个显著的发现是,简单地增加数据量并不总是意味着更好的知识保留。数据的质量和多样性在模型的知识获取过程中起着至关重要的作用。高质量、多样化的数据能更有效地帮助模型学习和保留事实知识。
遗忘动态
研究发现,这些模型在遗忘信息时呈现出一种独特的幂律模式,尤其是在处理重复数据时。模型容易遗忘长尾或不常见的事实。这一现象表明,模型在处理频繁出现的数据时更为有效,而对于那些不常见的数据,模型则更容易遗忘。这进一步强调了数据质量的重要性:不仅需要数量,还需要涵盖广泛且多样化的信息。
批量大小的重要性
研究还表明,较大的批量大小有助于模型更好地保留事实知识。较大的批量大小使得学习过程更加稳健和稳定,从而提高了模型对事实的记忆能力。然而,这一发现也再次突出了高质量数据的重要性,因为无论批量大小如何,如果数据质量不高,模型的学习效果都会受到影响。
数据质量的重要性
这项研究解释了为什么AI有时会遗漏一些小众的事实,并强调了数据质量和多样性的重要性。研究提出了一些策略来改进AI的事实保留能力,其中最关键的两个策略是数据去重和战略性的数据采样。
数据去重
通过去除重复的数据,可以确保模型在训练过程中接触到更多独特的信息,从而提高其对事实的记忆能力。这不仅有助于减少模型的遗忘率,还能提升模型在处理长尾信息时的表现。
战略性数据采样
通过有策略地选择数据,可以确保模型接触到更广泛和多样化的信息,从而提高其对长尾和不常见事实的记忆能力。这种方法不仅能提高模型的知识覆盖面,还能增强其应对不同场景的能力。