如何处理超长文本训练问题
训练的时候,如果loss出现了Nane,可能是梯度爆炸,崩溃了。
数据样本不均衡问题
在处理分类问题时,训练集中每个类别的数据量必须是均衡的。如果不均衡,会偏向于数量多的类别。
大模型处理:
- 少的数据补全
- 占比值过多的数据进行舍弃
其他方向的,也有别的方法,focall loss。用在小魔仙,cv领域。解决样本分布不均衡。
目的都是让类别分布均衡。
imbalanced-learn库
如果使用过采用,使用RandomOverSampler 如果使用欠采样,使用RandomUnderSampler
一般使用欠采样。 种子,一般给42。
测试集和验证集都是需要分布均衡。
- 如何更换数据与模型实现微博评论分析
- 模型微调训练中超长文本训练存在的问题
- 下游微调训练中超长文本训练存在的问题
- 下游任务模型设计
- 如何更改模型配置信息
如何更改模型的config,满足训练要求
max_length,最大长度,模型输入的最大长度。
给的长多越长,需要的显存越高。
- 模型里面有个长度限制
- config中也有
config 不能手动去修改。需要通过方法来获取和修改。 修改使用配置,使用修改后的配置文件进行模型初始化即可。
调整max_hength, 增量训练的时候,如果改了config,预训练模型就需要参与训练。实际上就是全量微调。
轮次一般给很大,批次根据硬件要求,批次需要大于1,批次越大越好。一般让显存占用率90%比较好。