传送门:
被垂直SFT的过拟合、灾难性遗忘折磨的宝子们有福了!
这个神仙开源工具实在是太有用了,忍不住分享给正在被大模型微调折磨的宝子
Y-Trainer可以有效避免模型灾难性遗忘和过拟合,集成了继续预训练(CPT)、指令微调(SFT)和强化学习(RL)
📊 优势简介
📉 精准对抗过拟合: 专门优化,有效解决SFT中的过拟合难题。
🧩 突破遗忘瓶颈: 无需依赖通用语料,即可卓越地保留模型的泛化能力,守住核心能力的同时实现专项提升!
🏆 单卡强化学习:无需依赖参考模型、教师模型,仅需基础模型+奖励函数,即可稳定的进行强化学习训练。
首创的NLIRG算法可以实现Token级别动态计算,调整训练梯度,帮助模型再困难样本和简单样本之间,平滑的调整学习强度。
🚀 Y-Trainer算法特点(NLIRG)
避免灾难遗忘 : 灾难性遗忘通常是由过难语料导致,通过识别这些token,进行动态调整,可有效避免 。
防止过拟合 : 过拟合是由相似语料或者模型已经掌握的知识导致,通过识别这些token,进行动态调整,可有效避免 过拟合问题。
识别问题语料 : Y-Trainer算法通过模型内部信号,可以对语料进行质量评分,提早排查错误。
无需通用语料 : 传统的SFT通常需要混合一定比例通用语料,防止模型能力退化,Y-Trainer算法可在只使用垂直领域语料的情况下训练,并取得更好的效果。
无需语料平衡 : 传统的SFT通常需要平和不同语料的分布,我们的Y-Trainer算法,即使在语料分布很不均匀的情况下,依然能够稳定训练。
有个缺点就是有点慢。。。
原因也很简单,由于是精细计算保证梯度更新准确,所以批次都比较小,鱼和熊掌不可兼得
强化学习还在弄,感觉需求不是很大,看后续反应吧
目前测试了qwen2.5和3.0的非Moe模型,做中文的qwen系列就够用了,暂时没有动力做其他适配
🔗感兴趣的朋友可以点击链接,试一下
传送门:
欢迎小伙伴们使用,有啥问题可以反馈到下面,都会看的