如何训练计算出最佳的大型语言模型?

182 阅读3分钟

DeepMind的新研究试图研究在给定的计算预算下,训练转化器语言模型的最佳模型大小和标记数量。该团队在5-5,000亿个标记上训练了超过400个语言模型,参数范围从7000万到160亿。该团队发现,为了实现计算上的最优训练,模型的大小和训练标记的数量应该是等比例的。这意味着,模型规模的翻倍应该伴随着训练代币的翻倍。

大型语言模型的崛起

现在是真正的大型语言模型时代。当GPT-3模型推出时,它引起了研究界的注意--1750亿个参数是闻所未闻的。它的推出已经有两年了,在这段时间里,已经推出了几个模型,每个模型都比前一个大。大型自回归变压器通过使用各种评估协议,如零点、少点和微调,在许多任务上显示出令人印象深刻的性能。

这种令人印象深刻的性能是以大量计算和能源需求为代价的。这一直是一个备受争议的话题。这种大型模型的负面影响被一再提出;一个流行的例子是人工智能研究员Timnit Gebru,据称她被谷歌驱逐,因为她共同撰写的一篇论文,谈到了建立、维护和训练这种大规模模型的弊端。

该研究

训练的计算预算通常是提前计算好的。由于训练这些大型模型不超过一次是可行的,所以准确估计给定计算预算的最佳模型超参数变得非常关键。在过去,已经证明参数数量和自回归语言模型的性能之间存在幂律关系。

早期的一项研究表明,大型模型不应该被训练到最低的损失才是计算最优。虽然DeepMind的研究人员在最近的研究中得出了同样的结论,但他们也估计大型模型的训练必须比早先建议的多。之前的研究表明,对于增加十倍的计算预算,模型的大小应该增加5.5倍,而训练令牌的数量必须增加1.8倍。然而,DeepMind的研究表明,模型规模和训练代币的数量应该以相等的比例扩展。

根据估计的计算-估计前沿,DeepMind的研究人员预测,对于训练Gopher(2800亿个参数的语言模型),最佳模型应该小四倍,应该在四倍的标记上进行训练。这一点通过在1.4万亿个标记上训练一个称为Chinchilla的计算最优模型得到了验证。研究人员可以表明,Chincilla的表现优于其较大的同行Gopher,而且还大大降低了推理成本(由于模型大小减少),这有利于下游在较小的硬件上使用。一个经过优化训练的较小的模型所带来的好处超出了其改善性能的直接好处。

对高质量数据集的需求

DeepMind的研究呼吁人们更加关注数据集的扩展,而这又只有在数据质量高的情况下才是有益的。"作者写道:"更大的数据集将需要格外小心,以确保训练-测试集的重叠得到适当的考虑,无论是在语言建模损失方面,还是在下游任务方面。

除此以外,研究界还必须考虑到与这种大型模型有关的道德和隐私问题。正如过去所观察到的,从网络上收集的大型数据集包含有毒的语言、偏见和其他私人信息。更好地理解大型语言模型 的性能及其相互作用是未来的一个重要研究领域。

在这里阅读论文全文。