在星期五,NVIDIA发布了Nemotron 340B,一个开放的大型语言模型(LLM),与GPT-4(0314)相媲美。🤯 他们还发布了一份技术报告,介绍了他们如何训练这个模型以及它的特殊之处!👀
实施
预训练:分为两个阶段,首先在8T数据上进行训练,然后继续在1T高质量标记和指令数据上进行训练,并且学习率衰减的斜率更陡。
微调:首先在80万条编码样本上进行微调,然后在20万条多样化任务样本上进行微调。
RLHF:应用直接偏好优化(DPO),然后在多次迭代中应用奖励感知偏好优化(RPO)。
见解
🧪 后期训练中使用的数据有98%是合成生成的
🌍 预训练数据:英语数据(70%),多语言数据(15%),源代码(15%)。
🖥️ 使用6144个H100 GPU进行训练,采用8路TP、12路PP并交错和DP,实现约42%的MFU
📈 调整数据分布和预训练阶段中的学习率衰减可以提高模型质量。
🧑 仅使用了2万条人工标注的数据,主要用于奖励建模
🎯 专注于任务多样性、主题多样性和指令多样性
🔄 使用迭代方法生成“响应”,从Mixtral开始然后切换到Nemotron模型
🛠️ 包括所有提示生成数据的详细合成数据管道说明