被大模型微调过拟合、灾难性遗忘折磨的宝子们有福了!

42 阅读2分钟

传送门:

被垂直SFT的过拟合、灾难性遗忘折磨的宝子们有福了!

这个神仙开源工具实在是太有用了,忍不住分享给正在被大模型微调折磨的宝子

Y-Trainer可以有效避免模型灾难性遗忘和过拟合,集成了继续预训练(CPT)、指令微调(SFT)和强化学习(RL)

📊 优势简介

📉 精准对抗过拟合: 专门优化,有效解决SFT中的过拟合难题。

🧩 突破遗忘瓶颈: 无需依赖通用语料,即可卓越地保留模型的泛化能力,守住核心能力的同时实现专项提升!

🏆 单卡强化学习:无需依赖参考模型、教师模型,仅需基础模型+奖励函数,即可稳定的进行强化学习训练。

首创的NLIRG算法可以实现Token级别动态计算,调整训练梯度,帮助模型再困难样本和简单样本之间,平滑的调整学习强度。

🚀 Y-Trainer算法特点(NLIRG)

避免灾难遗忘 : 灾难性遗忘通常是由过难语料导致,通过识别这些token,进行动态调整,可有效避免 。

防止过拟合 : 过拟合是由相似语料或者模型已经掌握的知识导致,通过识别这些token,进行动态调整,可有效避免 过拟合问题。

识别问题语料 : Y-Trainer算法通过模型内部信号,可以对语料进行质量评分,提早排查错误。

无需通用语料 : 传统的SFT通常需要混合一定比例通用语料,防止模型能力退化,Y-Trainer算法可在只使用垂直领域语料的情况下训练,并取得更好的效果。

无需语料平衡 : 传统的SFT通常需要平和不同语料的分布,我们的Y-Trainer算法,即使在语料分布很不均匀的情况下,依然能够稳定训练。

有个缺点就是有点慢。。。

原因也很简单,由于是精细计算保证梯度更新准确,所以批次都比较小,鱼和熊掌不可兼得

强化学习还在弄,感觉需求不是很大,看后续反应吧

目前测试了qwen2.5和3.0的非Moe模型,做中文的qwen系列就够用了,暂时没有动力做其他适配

🔗感兴趣的朋友可以点击链接,试一下

传送门:

欢迎小伙伴们使用,有啥问题可以反馈到下面,都会看的