背景:
随着存算项目正式迁移,需要平衡在线业务和大数据任务的资源使用。
目前常态化yumc3在线业务已经每日定时扩容使用潮汐资源
现状:
部分在线服务无法实现优雅下线, 故需要切流缩容
目标:
在合理范围内,白天让在线业务利用部分大数据节点,夜间让大数据业务利用部分在线资源,且夜间不影响 yumc3 使用。
理论yumc3 在线无法使用时间为21:45-22:00
潮汐逻辑图:
节点标签定义:
在线节点标签: ec=true
离线节点标签: yarn=true
潮汐过程暂行安排:
- 20:30 清空yumc3环境
- 21:30 判断yumc3环境是否清空
- 21:45 缩容yumc3到在线常态数量, 驱逐潮汐节点在线pod @朱骏 没缩容成功报警
- 21:50 潮汐节点增加存算调度标签
- 22:00 大数据容量增加 30 * 54 * 4 = 6480 vCore
- 22:00 验证yumc3 在线业务可用性
- 03:00 潮汐节点去掉存算调度标签
- 04:00 - 05:00 检查潮汐节点大数据任务是否完成
- 05:00 在线节点加回 扩容大A, 少量大数据存量作业留存潮汐节点不影响资源释放