[笔记][大模型学习]07-如何处理超长文本训练问题如何处理超长文本训练问题训练的时候，如果loss出现了Nane,可

如何处理超长文本训练问题

训练的时候，如果loss出现了Nane,可能是梯度爆炸，崩溃了。

数据样本不均衡问题

在处理分类问题时，训练集中每个类别的数据量必须是均衡的。如果不均衡，会偏向于数量多的类别。

大模型处理：

其他方向的，也有别的方法，focall loss。用在小魔仙，cv领域。解决样本分布不均衡。

目的都是让类别分布均衡。

如果使用过采用，使用RandomOverSampler 如果使用欠采样，使用RandomUnderSampler

一般使用欠采样。种子，一般给42。

测试集和验证集都是需要分布均衡。

max_length，最大长度，模型输入的最大长度。

给的长多越长，需要的显存越高。

config 不能手动去修改。需要通过方法来获取和修改。修改使用配置，使用修改后的配置文件进行模型初始化即可。

调整max_hength, 增量训练的时候，如果改了config,预训练模型就需要参与训练。实际上就是全量微调。

轮次一般给很大，批次根据硬件要求，批次需要大于1，批次越大越好。一般让显存占用率90%比较好。