test训练图片素材

291 阅读5分钟
超参数数值说明
迭代轮次 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。
学习率 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。
序列长度4096序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。超过该长度的数据在训练时将被舍弃,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。
全局批大小 全局批大小(Global Batch Size),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。
保存日志间隔 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。
预热比例 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。
正则化系数 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。
LoRA 策略中的秩64LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。
LoRA所有线性层TrueLoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。
伪多轮概率 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。
Checkpoint保存策略stepCheckpoint保存策略(Checkpoint Save Strategy),训练过程保存模型Checkpoint的策略。按Step保存需要配置保存Checkpoint的间隔,按Epoch保存则在每个Epoch训练完成后自动保存模型Checkpoint。
Checkpoint保存个数 Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。
Checkpoint保存间隔数 Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。
随机种子 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。
学习率调整计划constant学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。
cosine 策略的波数 cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。
polynomial 策略的末端 LR polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。
polynomial 策略的幂数 polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。
验证步数 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。
早停策略False早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。

.bJyoiK { --will-change: initial; --top: #c6dcfc; --bottom: #7bb3fc; --first: conic-gradient(from 90deg at 80% 50%,var(--top),var(--bottom)); --second: conic-gradient(from 270deg at 20% 50%,var(--bottom),var(--top)); background: var(--first),var(--second); background-position-x: 1%,99%; background-position-y: 0,0; background-repeat: no-repeat; background-size: 50% 100%,50% 100%; height: 33.33333rem; margin-bottom: -33.33333rem; -webkit-mask-image: radial-gradient(ellipse 100% 50% at center,#000,transparent); mask-image: radial-gradient(ellipse 100% 50% at center,#000,transparent); opacity: 1; pointer-events: none; -webkit-transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); -ms-transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); -webkit-transform-origin: center center; -ms-transform-origin: center center; transform-origin: center center; -webkit-transition: opacity,-webkit-transform .96s ease 0s; transition: opacity,-webkit-transform .96s ease 0s; transition: transform .96s ease 0s,opacity; transition: transform .96s ease 0s,opacity,-webkit-transform .96s ease 0s; -webkit-user-select: none; -moz-user-select: none; -ms-user-select: none; user-select: none; width: 100%; will-change: var(--will-change,transform,opacity); }