本文由【云老大】 TG@yunlaoda360 撰写
适用场景
- 机器学习:适用于机器学习模型的训练阶段,这一阶段通常需要大量的计算资源,但可以容忍一定程度的中断。
- 高性能计算:适用于科学计算、模拟等高性能计算任务,这些任务可以容忍中断,并且可以在实例被抢占时重新调度。
- 批处理作业:适用于数据处理、渲染任务等批处理作业,这些任务可以在实例被抢占时重新启动。
使用限制
- 可能被抢占:Compute Engine可能会随时因系统事件停止抢占式实例,通常每天和每个可用区的抢占概率不同。
- 运行时间限制:抢占式实例最多运行24小时,之后会被停止。
- 不提供服务等级协议保障:不在Compute Engine SLA的涵盖范围内。
价格优势
抢占式GPU的价格比标准GPU低,这使得它成为一种经济实惠的选择,特别是对于那些可以容忍中断的工作负载。
创建和管理
用户可以在Google Cloud Console中创建挂接GPU的抢占式实例,并通过托管实例组来自动重新创建被抢占的实例。此外,用户还可以设置警告,以便在实例被抢占前收到通知。