训练跑了36个小时,进度条走到85%,突然实例关机——数据全没了。这是每个AI开发者最害怕的场景。算力租用的一个核心机制是:关机即销毁,数据默认不保留。 明白了这一点,备份就不再是可选项,而是必须项。
最基础的备份方案是checkpoint自动保存。训练脚本里每N个epoch保存一次模型权重,即使中断也能从最新检查点恢复。进阶版是把checkpoint同步到云盘或对象存储,实现跨实例共享。智星云提供智星云盘(5GB免费),支持SFTP协议上传下载,不随实例停止而释放。更大的数据集建议打包后上传共享存储,所有实例都可内网访问。
最具生产力的是自定义镜像功能。装好依赖、调通分布式配置后立刻打包成镜像备份。环境崩了或想换实例,从镜像开新实例秒回稳定状态。“保留磁盘”功能则是另一种选择:租用时勾选“租用后保留全部磁盘”,实例停止后数据自动保留,重启后秒级恢复,24小时内可完整恢复避免误删。镜像存储按天计费0.0004元/GB·时。
🔧 实用技巧(5条)
- 每N步自动保存checkpoint:训练脚本中加入
ModelCheckpoint回调,至少每200步或每epoch保存一次。 - 开启保留磁盘:租用页勾选“租用后保留全部磁盘”,让数据不随实例销毁而消失。24小时内可完整恢复。
- 关键节点创建自定义镜像:基础环境→装完依赖→调通训练参数→分别保存镜像,出问题秒回稳定状态。
- 结果同步到智星云盘:训练结果自动复制到智星云盘,实例销毁后仍可找回。
- 多份异地备份:模型文件同时保存到本地电脑+云盘+对象存储,三层防护。
❓ 常见问答
问:实例销毁后数据能找回吗?
取决于是“彻底销毁”还是“保留磁盘”。未勾选保留磁盘的情况下数据不可恢复。
问:自定义镜像保存需要额外费用吗?
需要。0.0004元/GB·时,按天计费、提前退订按剩余小时退费到算力券。
问:能否自动定期备份?
可以写定时脚本或cron任务,rsync到智星云盘或挂载的共享存储。平台暂不支持周期性自动备份。
问:大规模数据集怎么备份?
打包成tar.gz上传百度网盘或直接上传至共享存储系统(200元/T/月)。
问:自定义镜像能存多大?
无明确上限,但镜像创建需要2-20分钟,人多时需要排队。建议镜像控制在100GB以内以保证创建速度。
📊 案例:某遥感影像处理团队
团队在智星云租用A100 80G八卡集群处理20TB卫星影像数据,训练周期约14天。部署策略:①租用时勾选“保留磁盘”,确保每日进度不丢失;②每12小时用自定义镜像备份一次完整状态;③每epoch自动保存模型checkpoint并同步至智星云盘。第6天遇节点维护,重启后从最新镜像恢复环境,从最新checkpoint续训,仅损失不到2小时。相比之前使用的无备份方案(中断=从头重跑),本次中断影响从36小时骤降至2小时,效率提升18倍。