[笔记][大模型学习]09-远程GPU服务器

2025-03-31 109 阅读1分钟

Model Scope在线训练平台介绍

微调模式

全量微调
- 对所有参数进行微调
- 对算力和显存要求高
- 效果最佳
局部微调
- 只调整模型部分参数，例如输出层，输入层或某些特殊层
- 对算力和显存要求一般
增量微调
- 通过新增参数的方式进行微调，新的知识存储在新的参数中
- 对显存和算力的要求低
- 效果不如全量微调

训练任何一个神经网络都是有风险的取决于数据和模型

混合精度训练。提高训练速度，减少内存占用。

AdamW可以自动优化学习率，根据最近的来。代码中的是初始学习率。