test训练图片素材超参数数值说明迭代轮次迭代轮次（Epoch），控制模型训练过程中遍历整个数据集的次数。建

超参数	数值	说明
迭代轮次		迭代轮次（Epoch），控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间，小数据集可增大Epoch以促进模型收敛。
学习率		学习率（Learning Rate），控制模型参数更新步长的速度。过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，平台已给出默认推荐值，可根据经验调整。
序列长度	4096	序列长度(Sequence Length)，单条数据的最大长度，包括输入和输出。超过该长度的数据在训练时将被舍弃，单位为token。如果数据集中的文本普遍较短，建议选择较短的序列长度以提高计算效率。
全局批大小		全局批大小（Global Batch Size），每次训练迭代使用的样本数，为了加快训练效率，多条样本会使用Packing尽可能拼接到一个序列长度内。
保存日志间隔		保存日志间隔（Logging Interval），设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。
预热比例		预热比例（Learning Rate Warmup），训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。
正则化系数		正则化系数（Weight Decay），控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果，防止过拟合，但过高的系数可能导致模型欠拟合。
LoRA 策略中的秩	64	LoRA 策略中的秩（LoRA Rank），决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量，降低过拟合风险，但可能不足以捕捉任务所需的所有特征；较大的秩可能增强模型的表示能力，但会增加计算和存储负担。
LoRA所有线性层	True	LoRA所有线性层（LoRA in Linear）,是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能，可以尝试在所有线性层上应用 LoRA，但需注意监控过拟合风险。
伪多轮概率		伪多轮概率（Pseudo Multi-Round Probability），随机采用数据拼接的数据增强策略的概率。
Checkpoint保存策略	step	Checkpoint保存策略（Checkpoint Save Strategy），训练过程保存模型Checkpoint的策略。按Step保存需要配置保存Checkpoint的间隔，按Epoch保存则在每个Epoch训练完成后自动保存模型Checkpoint。
Checkpoint保存个数		Checkpoint保存个数（Number of Checkpoint），训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练，但保存Checkpoint会增加训练时长。
Checkpoint保存间隔数		Checkpoint保存间隔数（Checkpoint Interval），训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长，间隔太长则可能在故障时丢失更多的数据。
随机种子		随机种子（Random Seed），是在随机数生成算法中设定的一个初始值，用于确保随机数生成的可重复性。通过设置随机种子，可以在相同的算法和参数下，生成相同的随机数序列。
学习率调整计划	constant	学习率调整计划（Scheduler Type），用于在训练过程中动态调整学习率，以优化模型的收敛速度和性能。根据模型的训练情况和任务需求，选择合适的学习率调整方式。
cosine 策略的波数		cosine 策略的波数（Period of Cosine），波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定，增加波数可以避免陷入局部最优。
polynomial 策略的末端 LR		polynomial 策略的末端 LR（Polynomial Decay End Learning Rate），指的是在多项式衰减策略中，学习率下降到最后所达到的最小值。这个值通常设置得较低，该值若生效需要比学习率小，保证在模型训练后期实现细致的优化。
polynomial 策略的幂数		polynomial 策略的幂数（Polynomial Decay Power），是指在多项式衰减学习率调整策略中，用于控制学习率下降曲线陡峭程度的指数。幂数越大，可以避免陷入局部最优；幂数越小，可以使模型训练过程稳定。
验证步数		验证步数（Validation Steps），计算验证集Loss的间隔步数；为0时不开启验证，没有相关指标。
早停策略	False	早停策略（Early Stopping），监控精调任务的指标变化情况，指标连续不变则提前终止训练。

.bJyoiK { --will-change: initial; --top: #c6dcfc; --bottom: #7bb3fc; --first: conic-gradient(from 90deg at 80% 50%,var(--top),var(--bottom)); --second: conic-gradient(from 270deg at 20% 50%,var(--bottom),var(--top)); background: var(--first),var(--second); background-position-x: 1%,99%; background-position-y: 0,0; background-repeat: no-repeat; background-size: 50% 100%,50% 100%; height: 33.33333rem; margin-bottom: -33.33333rem; -webkit-mask-image: radial-gradient(ellipse 100% 50% at center,#000,transparent); mask-image: radial-gradient(ellipse 100% 50% at center,#000,transparent); opacity: 1; pointer-events: none; -webkit-transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); -ms-transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); transform: translateY(-16.66667rem) rotate(180deg) translateZ(0); -webkit-transform-origin: center center; -ms-transform-origin: center center; transform-origin: center center; -webkit-transition: opacity,-webkit-transform .96s ease 0s; transition: opacity,-webkit-transform .96s ease 0s; transition: transform .96s ease 0s,opacity; transition: transform .96s ease 0s,opacity,-webkit-transform .96s ease 0s; -webkit-user-select: none; -moz-user-select: none; -ms-user-select: none; user-select: none; width: 100%; will-change: var(--will-change,transform,opacity); }