[笔记][大模型学习]09-远程GPU服务器 千里足下 2025-03-31 109 阅读1分钟 Model Scope在线训练平台介绍 微调模式 全量微调 对所有参数进行微调 对算力和显存要求高 效果最佳 局部微调 只调整模型部分参数,例如输出层,输入层或某些特殊层 对算力和显存要求一般 增量微调 通过新增参数的方式进行微调,新的知识存储在新的参数中 对显存和算力的要求低 效果不如全量微调 训练任何一个神经网络都是有风险的 取决于数据和模型 混合精度训练。提高训练速度,减少内存占用。 AdamW可以自动优化学习率,根据最近的来。代码中的是初始学习率。