[笔记][大模型学习]07-如何处理超长文本训练问题

86 阅读2分钟

如何处理超长文本训练问题

训练的时候,如果loss出现了Nane,可能是梯度爆炸,崩溃了。

数据样本不均衡问题

在处理分类问题时,训练集中每个类别的数据量必须是均衡的。如果不均衡,会偏向于数量多的类别。

大模型处理:

  • 少的数据补全
  • 占比值过多的数据进行舍弃

其他方向的,也有别的方法,focall loss。用在小魔仙,cv领域。解决样本分布不均衡。

目的都是让类别分布均衡。

imbalanced-learn库

如果使用过采用,使用RandomOverSampler 如果使用欠采样,使用RandomUnderSampler

一般使用欠采样。 种子,一般给42。

测试集和验证集都是需要分布均衡。


  • 如何更换数据与模型实现微博评论分析
  • 模型微调训练中超长文本训练存在的问题
  • 下游微调训练中超长文本训练存在的问题
  • 下游任务模型设计
  • 如何更改模型配置信息

如何更改模型的config,满足训练要求

max_length,最大长度,模型输入的最大长度。

给的长多越长,需要的显存越高。

  1. 模型里面有个长度限制
  2. config中也有

config 不能手动去修改。需要通过方法来获取和修改。 修改使用配置,使用修改后的配置文件进行模型初始化即可。

调整max_hength, 增量训练的时候,如果改了config,预训练模型就需要参与训练。实际上就是全量微调。

轮次一般给很大,批次根据硬件要求,批次需要大于1,批次越大越好。一般让显存占用率90%比较好。