大模型微调核心参数

2025-11-28 54 阅读2分钟

学习率(Learning Rate)

是什么： 学习率是训练过程中权重更新的步长大小，控制模型参数调整的速度
作用：
- 高 学习率 ：模型收敛快，但可能在最优解附近震荡，甚至跳过最优解
- 低 学习率 ：模型收敛慢，但可能找到更优的解

训练轮数 (Epochs)

是什么： 模型遍历整个训练数据集的次数
作用：
- 轮数太少： 模型学习不充分（欠拟合）
- 轮数太多： 模型过度适应训练数据（过拟合）

批量大小（Batch Size）

是什么： 每次训练时使用的样本数量
作用：
- 大批量： 训练速度更快，但需要更多内存，可能导致收敛困难或过拟合
- 小批量： 内存消耗小，但收敛速度慢，模型更容易受数据噪声影响

梯度累积步数(Gradient Accumulation Steps)

是什么： 在进行多次前向传播和反向传播后，才进行一次权重更新的步数
作用：
- 解决GPU内存不足问题，实现等效的大批量训练
- 例如：局部batch size=8，梯度累积步数=4，则等效batch size=32

截断长度 (Sequence Length / Max Length)

是什么： 输入序列的最大长度，超过此长度的输入会被截断
作用：
- 控制输入文本长度，避免过长序列导致内存不足
- 影响模型处理上下文的能力

LoRA 低秩矩阵秩数

是什么： LoRA（Low-Rank Adaptation）中两个低秩矩阵的秩（r值）
作用：
- 决定LoRA参数量：r越小，参数量越少，计算成本越低
- 影响模型性能：r太小可能影响性能，r太大则失去高效微调优势

验证集的比例 (Validation Split Ratio)

是什么： 从训练数据中划分出用于验证模型性能的部分所占的比例
作用：
- 评估模型泛化能力，防止过拟合
- 帮助调整超参数和决定何时停止训练