Llama-3 70B后训练中语言混合比优化实践

28 阅读2分钟

A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio

大型语言模型(LLM)通常需要进行持续预训练(CPT)以获得不熟悉的语言技能或适应新领域。CPT的巨大训练成本往往要求谨慎选择关键超参数,例如额外语言或领域语料的混合比例。然而,目前缺乏系统研究来弥合最优混合比例与实际模型性能之间的差距,以及实验缩放定律与全模型规模实际部署之间的差距。

本文在Llama-3 8B和70B模型上进行CPT以增强其中文能力。研究了8B规模上额外语言混合比例(ALMR)与学习率(LR)之间的最优相关性,这直接指明了最佳实验设置。通过全面选择超参数及后续微调,模型能力不仅在中文本地化基准测试中得到提升,还在数学、编程和情感智能等特定领域有所增强。最终将70B版本的LLM部署在实际聊天系统中,获得了令人满意的性能。

评论: 12页,2张图

主题:
计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG)

引用为:
arXiv:2409.06624 [cs.CL]
(或 arXiv:2409.06624v2 [cs.CL] 此版本)
doi.org/10.48550/ar…

提交历史:
[v1] 2024年9月10日星期二 16:26:43 UTC (456 KB)
[v2] 2025年7月26日星期六 17:13:03 UTC (456 KB)

全文链接:

当前浏览上下文: cs.CL

相关工具:

  • NASA ADS
  • Google Scholar
  • Semantic Scholar
  • BibTeX引用导出

代码、数据与媒体:

  • alphaXiv
  • CatalyzeX代码查找器
  • DagsHub
  • GotitPub
  • Hugging Face
  • Papers with Code
  • ScienceCast

演示:

  • Replicate
  • Hugging Face Spaces
  • TXYZ.AI

相关论文推荐工具:

  • Influence Flower
  • CORE推荐系统