| 超参数 | 数值 | 说明 |
|---|---|---|
| 迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 | |
| 学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 | |
| 序列长度 | 4096 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。超过该长度的数据在训练时将被舍弃,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
| 全局批大小 | 全局批大小(Global Batch Size),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 | |
| 保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 | |
| 预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 | |
| 正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 | |
| LoRA 策略中的秩 | 64 | LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
| LoRA所有线性层 | True | LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
| 伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 | |
| Checkpoint保存策略 | step | Checkpoint保存策略(Checkpoint Save Strategy),训练过程保存模型Checkpoint的策略。按Step保存需要配置保存Checkpoint的间隔,按Epoch保存则在每个Epoch训练完成后自动保存模型Checkpoint。 |
| Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 | |
| Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 | |
| 随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 | |
| 学习率调整计划 | constant | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
| cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 | |
| polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 | |
| polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 | |
| 验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 | |
| 早停策略 | False | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
.bJyoiK { --will-change: initial; --top: #c6dcfc; --bottom: #7bb3fc; --first: conic-gradient(from 90deg at 80% 50%,var(--top),var(--bottom)); --second: conic-gradient(from 270deg at 20% 50%,var(--bottom),var(--top)); background: var(--first),var(--second); background-position-x: 1%,99%; background-position-y: 0,0; background-repeat: no-repeat; background-size: 50% 100%,50% 100%; height: 33.33333rem; margin-bottom: -33.33333rem; -webkit-mask-image: radial-gradient(ellipse 100% 50% at center,#000,transparent); mask-image: radial-gradient(ellipse 100% 50% at center,#000,transparent); opacity: 1; pointer-events: none; -webkit-transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); -ms-transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); -webkit-transform-origin: center center; -ms-transform-origin: center center; transform-origin: center center; -webkit-transition: opacity,-webkit-transform .96s ease 0s; transition: opacity,-webkit-transform .96s ease 0s; transition: transform .96s ease 0s,opacity; transition: transform .96s ease 0s,opacity,-webkit-transform .96s ease 0s; -webkit-user-select: none; -moz-user-select: none; -ms-user-select: none; user-select: none; width: 100%; will-change: var(--will-change,transform,opacity); }