[笔记][大模型学习]09-远程GPU服务器

109 阅读1分钟

Model Scope在线训练平台介绍

微调模式

  • 全量微调
    • 对所有参数进行微调
    • 对算力和显存要求高
    • 效果最佳
  • 局部微调
    • 只调整模型部分参数,例如输出层,输入层或某些特殊层
    • 对算力和显存要求一般
  • 增量微调
    • 通过新增参数的方式进行微调,新的知识存储在新的参数中
    • 对显存和算力的要求低
    • 效果不如全量微调

训练任何一个神经网络都是有风险的 取决于数据和模型

混合精度训练。提高训练速度,减少内存占用。

AdamW可以自动优化学习率,根据最近的来。代码中的是初始学习率。