NVIDIA发布了Nemotron 340B LLM

140 阅读1分钟

在星期五,NVIDIA发布了Nemotron 340B,一个开放的大型语言模型(LLM),与GPT-4(0314)相媲美。🤯 他们还发布了一份技术报告,介绍了他们如何训练这个模型以及它的特殊之处!👀

实施

预训练:分为两个阶段,首先在8T数据上进行训练,然后继续在1T高质量标记和指令数据上进行训练,并且学习率衰减的斜率更陡。

微调:首先在80万条编码样本上进行微调,然后在20万条多样化任务样本上进行微调。

RLHF:应用直接偏好优化(DPO),然后在多次迭代中应用奖励感知偏好优化(RPO)。

见解

🧪 后期训练中使用的数据有98%是合成生成的

🌍 预训练数据:英语数据(70%),多语言数据(15%),源代码(15%)。

🖥️ 使用6144个H100 GPU进行训练,采用8路TP、12路PP并交错和DP,实现约42%的MFU

📈 调整数据分布和预训练阶段中的学习率衰减可以提高模型质量。

🧑 仅使用了2万条人工标注的数据,主要用于奖励建模

🎯 专注于任务多样性、主题多样性和指令多样性

🔄 使用迭代方法生成“响应”,从Mixtral开始然后切换到Nemotron模型

🛠️ 包括所有提示生成数据的详细合成数据管道说明

194d1c6b90de426fa841188f65d62c34.png~tplv-6bxrjdptv7-image.png