存算潮汐

58 阅读1分钟

背景:

随着存算项目正式迁移,需要平衡在线业务和大数据任务的资源使用。

目前常态化yumc3在线业务已经每日定时扩容使用潮汐资源

现状:

部分在线服务无法实现优雅下线, 故需要切流缩容

目标:

在合理范围内,白天让在线业务利用部分大数据节点,夜间让大数据业务利用部分在线资源,且夜间不影响 yumc3 使用。

理论yumc3 在线无法使用时间为21:45-22:00

潮汐逻辑图:

图片.png

节点标签定义:

在线节点标签: ec=true

离线节点标签: yarn=true

潮汐过程暂行安排:

  1. 20:30 清空yumc3环境
  2. 21:30 判断yumc3环境是否清空
  3. 21:45 缩容yumc3到在线常态数量, 驱逐潮汐节点在线pod @朱骏 没缩容成功报警
  4. 21:50 潮汐节点增加存算调度标签
  5. 22:00 大数据容量增加 30 * 54 * 4 = 6480 vCore
  6. 22:00 验证yumc3 在线业务可用性
  7. 03:00 潮汐节点去掉存算调度标签
  8. 04:00 - 05:00 检查潮汐节点大数据任务是否完成
  9. 05:00 在线节点加回 扩容大A, 少量大数据存量作业留存潮汐节点不影响资源释放