分布式定时任务那些事儿(下) | 青训营笔记

134 阅读4分钟

这是我参与「第五营」笔记创作活动的的第15天

分布式定时任务那些事儿(下)

实现原理

整体架构

核心架构

分布式定时任务核心要解决触发调度执行三个关键问题

image.png

  • 触发器: Trigger,解析任务,生成触发事件
  • 调度器: Scheduler,分配任务,管理任务生命周期
  • 执行器: Executor,取执行任务单元,执行任务逻辑

除此之外,还需要提供一个控制台(Admin),提供任务管理和干预的功能。

数据流

image.png

功能架构

image.png

控制台Admin

image.png

任务元数据:Job,是用户对任务属性定义,包括任务类型调度时机、执行行为等。

image.png

任务实例: JobInstance,是一个确定的Job的一次远行实例。

image.png

任务结果: JobResult,任务实例运行的结果。

任务历史: JobHistor,用户可以修改任务信息,任务实例对应的任务元数据可以不同,因而使用任务历史存储。

触发器Trigger

核心职责:给定一系列任务,解析它们的触发规则,在规定的时间点触发任务的调度。

设计约束

  • 需支持大量任务
  • 需支持秒级的调度
  • 周期任务需要多次执行
  • 需保证秒级扫描的高性能,并避免资源浪费

方案1

定期扫描+延时消息(腾讯、字节方案)

image.png

方案2

时间轮(Quartz所用方案)

时间轮是一种高效利用线程资源进行批量化调度的一种调度模型。时间轮是采用数组实现,数组中的每个元素可以存放一个定时任务列表。

image.png

目标: 遍历任务列表,从中找出当前时间点需触发的任务列表

image.png

image.png

image.png

image.png

高可用

核心问题

  • 不同业务之间,任务的调度相互影响怎么办?
  • 负责扫描和触发的机器挂了怎么办?

解法思路

  • 存储上,不同国别、业务做资源隔离
  • 运行时,不同国别、业务分开执行
  • 部署时,采用多机房集群化部署,避免单点故障,通过数据库锁或分布式锁保证任务只被触发一次

问题引出

image.png

数据库行锁模式:在触发调度之前,更新数据库中JobInstance的状态,成功抢锁的才会触发调度。多台机器频繁竞争数据库锁,节点越多性能越差。

分布式锁模式:在触发调度之前,尝试抢占分布式锁,可使用Redis或Zookeeper锁。性能较高,多家公司使用此方案。

调度器Scheduler

资源来源

image.png

资源调度

节点选择

  • 随机节点执行: 选择集群中一个可用的执行节点执行调度任务。适用场景: 定时对账。
  • 广播执行: 在集群中所有的执行节点分发调度任务并执行。适用场景: 批量运维。
  • 分片执行: 按照用户自定义分片逻辑进行拆分,分发到集群中不同节点并行执行,提升资源利用效率。适用场景: 海量日志统计。

任务分片:通过任务分片来提高任务执行的效率和资源的利用率。

image.png

  • N个执行器Executor,M个业务数据区段,最好M\geN,且M是N的整数倍

高级特性

任务编排:使用有向无环图 DAG(Directed Acyclic Graph) 进行可视化任务编排。

image.png

故障转移:确保部分执行单元任务失败时,任务最终成功。

image.png

  • 分片任务基于一致性hash策略分发任务,当某Executor异常时,调度器会将任务分发到其他Executor

调度器

调度器可以集群部署,做到完全的无状态,靠消息队列的重试机制保障任务一定会被调度。

image.png

执行器Executor

image.png

任务应用

所有需要定时、延时、周期性执行任务的业务场景,都可以考虑使用分布式定时任务。

电商

  • 订单30分钟未付款自动关闭订单
  • 定时给商家、达人发送消息,给用户发放优惠券等

互动

  • 支付宝集五福
  • 字节春节集卡瓜分红包

游戏

  • 活动结束后批量补发用户未领取的奖励
  • 定期更新游戏内榜单

其他解决方案

发货后超过10天未收货时系统自动确认收货

  • 使用分布式定时任务的延时任务
  • 使用消息队列的延时消息或者定时消息

春节集卡活动统计完成集卡的用户个数和总翻倍数

  • 使用分布式定时任务的MapReduce任务
  • 使用大数据离线处理引擎Hive离线做统计
  • 使用大数据实时处理引擎Flink实时做累计
时效性可控性简洁性主要缺点
分布式定时任务秒级-
单机定时任务秒级无法支撑很大业务体量
延时消息实时在任务有变化时,已发送的延时消息不便于做变更
离线计算小时级时延至少小时级
实时计算秒级仅能做数据处理,无法调用HTTP/RPC请求完成业务逻辑处理