大模型微调核心参数

54 阅读2分钟

学习率(Learning Rate)

  • 是什么: 学习率是训练过程中权重更新的步长大小,控制模型参数调整的速度

  • 作用:

    • 学习率 模型收敛快,但可能在最优解附近震荡,甚至跳过最优解
    • 学习率 模型收敛慢,但可能找到更优的解

训练轮数 (Epochs)

  • 是什么: 模型遍历整个训练数据集的次数

  • 作用:

    • 轮数太少: 模型学习不充分(欠拟合)

    • 轮数太多: 模型过度适应训练数据(过拟合)

批量大小(Batch Size)

  • 是什么: 每次训练时使用的样本数量

  • 作用:

    • 大批量: 训练速度更快,但需要更多内存,可能导致收敛困难或过拟合

    • 小批量: 内存消耗小,但收敛速度慢,模型更容易受数据噪声影响

梯度累积步数(Gradient Accumulation Steps)

  • 是什么: 在进行多次前向传播和反向传播后,才进行一次权重更新的步数

  • 作用:

    • 解决GPU内存不足问题,实现等效的大批量训练

    • 例如:局部batch size=8,梯度累积步数=4,则等效batch size=32

截断长度 (Sequence Length / Max Length)

  • 是什么: 输入序列的最大长度,超过此长度的输入会被截断

  • 作用:

    • 控制输入文本长度,避免过长序列导致内存不足

    • 影响模型处理上下文的能力

LoRA 低秩矩阵秩数

  • 是什么: LoRA(Low-Rank Adaptation)中两个低秩矩阵的秩(r值)

  • 作用:

    • 决定LoRA参数量:r越小,参数量越少,计算成本越低

    • 影响模型性能:r太小可能影响性能,r太大则失去高效微调优势

验证集的比例 (Validation Split Ratio)

  • 是什么: 从训练数据中划分出用于验证模型性能的部分所占的比例

  • 作用:

    • 评估模型泛化能力,防止过拟合
    • 帮助调整超参数和决定何时停止训练