学习率(Learning Rate)
-
是什么: 学习率是训练过程中权重更新的步长大小,控制模型参数调整的速度
-
作用:
- 高 学习率 : 模型收敛快,但可能在最优解附近震荡,甚至跳过最优解
- 低 学习率 : 模型收敛慢,但可能找到更优的解
训练轮数 (Epochs)
-
是什么: 模型遍历整个训练数据集的次数
-
作用:
-
轮数太少: 模型学习不充分(欠拟合)
-
轮数太多: 模型过度适应训练数据(过拟合)
-
批量大小(Batch Size)
-
是什么: 每次训练时使用的样本数量
-
作用:
-
大批量: 训练速度更快,但需要更多内存,可能导致收敛困难或过拟合
-
小批量: 内存消耗小,但收敛速度慢,模型更容易受数据噪声影响
-
梯度累积步数(Gradient Accumulation Steps)
-
是什么: 在进行多次前向传播和反向传播后,才进行一次权重更新的步数
-
作用:
-
解决GPU内存不足问题,实现等效的大批量训练
-
例如:局部batch size=8,梯度累积步数=4,则等效batch size=32
-
截断长度 (Sequence Length / Max Length)
-
是什么: 输入序列的最大长度,超过此长度的输入会被截断
-
作用:
-
控制输入文本长度,避免过长序列导致内存不足
-
影响模型处理上下文的能力
-
LoRA 低秩矩阵秩数
-
是什么: LoRA(Low-Rank Adaptation)中两个低秩矩阵的秩(r值)
-
作用:
-
决定LoRA参数量:r越小,参数量越少,计算成本越低
-
影响模型性能:r太小可能影响性能,r太大则失去高效微调优势
-
验证集的比例 (Validation Split Ratio)
-
是什么: 从训练数据中划分出用于验证模型性能的部分所占的比例
-
作用:
- 评估模型泛化能力,防止过拟合
- 帮助调整超参数和决定何时停止训练