NVIDIA发布了Nemotron 340B LLM在星期五，NVIDIA发布了Nemotron 340B，一个开放的大

在星期五，NVIDIA发布了Nemotron 340B，一个开放的大型语言模型（LLM），与GPT-4（0314）相媲美。🤯 他们还发布了一份技术报告，介绍了他们如何训练这个模型以及它的特殊之处！👀

预训练：分为两个阶段，首先在8T数据上进行训练，然后继续在1T高质量标记和指令数据上进行训练，并且学习率衰减的斜率更陡。

微调：首先在80万条编码样本上进行微调，然后在20万条多样化任务样本上进行微调。

RLHF：应用直接偏好优化（DPO），然后在多次迭代中应用奖励感知偏好优化（RPO）。

🌍 预训练数据：英语数据（70%），多语言数据（15%），源代码（15%）。

🖥️ 使用6144个H100 GPU进行训练，采用8路TP、12路PP并交错和DP，实现约42%的MFU

📈 调整数据分布和预训练阶段中的学习率衰减可以提高模型质量。

🧑 仅使用了2万条人工标注的数据，主要用于奖励建模

🎯 专注于任务多样性、主题多样性和指令多样性

🔄 使用迭代方法生成“响应”，从Mixtral开始然后切换到Nemotron模型

🛠️ 包括所有提示生成数据的详细合成数据管道说明

194d1c6b90de426fa841188f65d62c34.png~tplv-6bxrjdptv7-image.png