重要结论
- 模型规模带来的模型能力的提升还远没有达到上限;
- 通过思维链(chain of thought prompting)方式让模型生成自然语言来解释其预测的方式对模型是有益的,以便更好地理解模型为什么做出某种预测。即,模型的生成(而不仅仅是理解)功能可以非常有益,甚至对于建模为分类预测或回归的任务也是如此,这些任务通常不需要大量的语言生成。
- 侧重提高参数规模和训练效率,同GPT-3相比:
- 模型规模不同;
- 训练语料不同,包含多语言;
- 模型训练不同,基于Pathways,一种新的可以在数千个加速器芯片上高效地训练超大型神经网络的机器学习系统对模型训练进行加速;
背景
大模型的性能来自于以下几个方面:增加模型的深度和宽度;增加训练模型的tokens数量;在来源更多样化的更干净的数据集上进行训练;在不增加计算成本的情况下,通过稀疏激活模块增加模型容量。本文从以上几个方面着手,旨在训练一个规模更大,性能更好的LLM。
实现细节
数据集
训练语料包含780B个token。模型在数据集上训练一个epoch。该数据集混合了过滤后的网页、书、维基百科、新闻文章、源代码和社交媒体对话。