被大模型微调过拟合、灾难性遗忘折磨的宝子们有福了！被垂直SFT的过拟合、灾难性遗忘折磨的宝子们有福了！这个神仙开源工具

传送门：

GitHub仓库：源代码与issue讨论

官方文档：最权威的使用指南

核心算法详解：NLIRG数学原理

快速开始示例：5分钟上手

被垂直SFT的过拟合、灾难性遗忘折磨的宝子们有福了！

这个神仙开源工具实在是太有用了，忍不住分享给正在被大模型微调折磨的宝子

Y-Trainer可以有效避免模型灾难性遗忘和过拟合，集成了继续预训练（CPT）、指令微调（SFT）和强化学习（RL）

📉 精准对抗过拟合：专门优化，有效解决SFT中的过拟合难题。

🧩 突破遗忘瓶颈：无需依赖通用语料，即可卓越地保留模型的泛化能力，守住核心能力的同时实现专项提升！

🏆 单卡强化学习：无需依赖参考模型、教师模型，仅需基础模型+奖励函数，即可稳定的进行强化学习训练。

首创的NLIRG算法可以实现Token级别动态计算，调整训练梯度，帮助模型再困难样本和简单样本之间，平滑的调整学习强度。

避免灾难遗忘：灾难性遗忘通常是由过难语料导致，通过识别这些token，进行动态调整，可有效避免。

防止过拟合：过拟合是由相似语料或者模型已经掌握的知识导致，通过识别这些token，进行动态调整，可有效避免过拟合问题。

识别问题语料： Y-Trainer算法通过模型内部信号，可以对语料进行质量评分，提早排查错误。

无需通用语料：传统的SFT通常需要混合一定比例通用语料，防止模型能力退化，Y-Trainer算法可在只使用垂直领域语料的情况下训练，并取得更好的效果。

无需语料平衡：传统的SFT通常需要平和不同语料的分布，我们的Y-Trainer算法，即使在语料分布很不均匀的情况下，依然能够稳定训练。

有个缺点就是有点慢。。。

原因也很简单，由于是精细计算保证梯度更新准确，所以批次都比较小，鱼和熊掌不可兼得

强化学习还在弄，感觉需求不是很大，看后续反应吧

目前测试了qwen2.5和3.0的非Moe模型，做中文的qwen系列就够用了，暂时没有动力做其他适配

🔗感兴趣的朋友可以点击链接，试一下

欢迎小伙伴们使用，有啥问题可以反馈到下面，都会看的