A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio
大型语言模型(LLM)通常需要进行持续预训练(CPT)以获得不熟悉的语言技能或适应新领域。CPT的巨大训练成本往往要求谨慎选择关键超参数,例如额外语言或领域语料的混合比例。然而,目前缺乏系统研究来弥合最优混合比例与实际模型性能之间的差距,以及实验缩放定律与全模型规模实际部署之间的差距。
本文在Llama-3 8B和70B模型上进行CPT以增强其中文能力。研究了8B规模上额外语言混合比例(ALMR)与学习率(LR)之间的最优相关性,这直接指明了最佳实验设置。通过全面选择超参数及后续微调,模型能力不仅在中文本地化基准测试中得到提升,还在数学、编程和情感智能等特定领域有所增强。最终将70B版本的LLM部署在实际聊天系统中,获得了令人满意的性能。
评论: 12页,2张图
主题:
计算与语言(cs.CL);人工智能(cs.AI);机器学习(cs.LG)
引用为:
arXiv:2409.06624 [cs.CL]
(或 arXiv:2409.06624v2 [cs.CL] 此版本)
doi.org/10.48550/ar…
提交历史:
[v1] 2024年9月10日星期二 16:26:43 UTC (456 KB)
[v2] 2025年7月26日星期六 17:13:03 UTC (456 KB)
全文链接:
当前浏览上下文: cs.CL
相关工具:
- NASA ADS
- Google Scholar
- Semantic Scholar
- BibTeX引用导出
代码、数据与媒体:
- alphaXiv
- CatalyzeX代码查找器
- DagsHub
- GotitPub
- Hugging Face
- Papers with Code
- ScienceCast
演示:
- Replicate
- Hugging Face Spaces
- TXYZ.AI
相关论文推荐工具:
- Influence Flower
- CORE推荐系统