定时任务 | 青训营笔记这是我参与「第五届青训营」笔记创作活动的第4天 1.前言春节瓜分红包项目：用户集卡，开奖时对

这是我参与「第五届青训营」笔记创作活动的第4天

1.前言

春节瓜分红包项目：用户集卡，开奖时对集齐卡片的用户发放随机红包。

简要流程：系统用脚本扫描集卡信息，汇总用户数据（MapReduce任务），计算用户获得的金额然后发放红包（Map任务）。

难点：亿级用户规模、亿级资金规模、百万级读写QPS。

自动化+定时执行+海量数据+高效稳定=分布式定时任务

2.发展历程

2.1 Windows批处理

case1：10分钟后Windows电脑自动关机

桌面空白处新建文件。
更改文件名和后缀为“自动关机.bat”。
修改文件内容为“shutdown -s -t 600”，代表10分钟后关机。
双击运行该批处理文件，电脑将在10分钟后关机。

2.2 Windows任务计划程序

case2：每天12点自动打卡

此电脑，右键管理。
点击任务计划程序，右侧新建任务。可以设定在12点执行一个命令。
用python写一个脚本，抓包打卡请求，用Python脚本填写请求，注册到任务里面。

2.3 Linux命令CronJob

case3：每天凌晨02：30定时清理机器日志

写一个cronjob脚本（.yaml文件）。
kubectl命令执行。

Linux系统命令使用简单、稳定可靠。只能控制单台机器，且无法适用于其他操作系统。

2.4 单机定时任务

Timer、Ticker

case4：每隔5分钟定时刷新本地缓存数据

public static void main(String[] args) throws ParseException {
    Timer timer = new Timer();
    Timer.schedule(new TimerTask() {
            @Override
            public void run() {
                SyncLocalCache();
            }
        }, 5000, 5 * 60 * 1000);
}
复制代码
复制代码
func main() {
    ticker := time.NewTicker(5 * time.Minute)
    for {
        select {
        case <-ticker.C:
            SyncLocalCache()
        }
    }
}
复制代码

可跨平台使用，但仅单机可用。

Scheduled Executor Service

case5：每隔5分钟执行多个任务

private static ScheduledExecutorService scheduler;
    public static void main(String[] args) throws Exception {
        scheduler = Executors.newScheduledThreadPool(5);
        
        scheduler.scheduleAtFixedRate(((
                new Runnable(){
                    @Override
                    public void run(){
                        DoSomething();
                    }
                })),
            0, 300, TimeUnit.SECONDS);
    }
复制代码

拥有线程池功能，仅单即可用。

2.5 任务调度-Quartz

单机任务调度。没有负载均衡，对分布式支持较差。

2.6 分布式定时任务

平台化管理，让无数用户注册任务。
分布式部署，没有单机的性能瓶颈。
支持海量数据

定时任务是指系统为了自动完成特定任务，实时、延时、周期性完成任务调度的过程。

分布式定时任务是把分散的、可靠性差的定时任务纳入统一的平台，并实现集群管理调度和分布式部署的一种定时任务的管理方式。

按触发时机分类：

定时任务：特定时间触发，比如今天15：06执行。
延时任务：延时触发，比如10s后执行。
周期任务：固定周期时间，或固定频率周期调度触发，比如每隔5s或者每天12点执行。

分布式定时任务的特点：

自动化：全自动完成定时任务的调度和执行。
平台化：基于平台化的思维管控一系列的分布式定时任务。
分布式：在分布式系统环境下运行任务调度，突破单机定时任务的性能瓶颈。
伸缩性：采用集群方式部署，可以随时按需扩缩容。
高可用：单点故障不影响最终任务结果，可以做到故障转移。

执行方式：

单机任务：随机触发一台机器执行任务，适用于计算量小、并发度低的任务。
广播任务：广播到所有机器上同时执行一个任务，如一起清理日志。
Map任务：一个任务可以分出多个子任务，每个子任务负责一部分的计算。适用于计算量大，单机无法满足要求的任务。
MapReduce任务：在Map任务的基础上，还可以对所有子任务的结果做汇总计算，适用于计算量大且需要对子任务结果做汇总的任务。

2.7 业内定时任务框架

	Xxl-job	SchedulerX	TCT	Elastic-job	Saturn
来源公司	美团点评	阿里巴巴	腾讯	当当网	唯品会
是否开元	是	否	否	是	是
任务编排	子任务依赖	支持	支持	不支持	不支持
任务分片	支持	支持	支持	支持	支持
高可用	支持	支持	支持	支持	支持
故障转移	支持	支持	支持	支持	支持
可视化运维	支持	支持	支持	支持	支持

Xxl-job

Xxl-job是大众点评员工许雪里于2015年发布的分布式任务调度平台，是一个轻量级分布式任务调度框架，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。XXL-JOB支持分片，简单支持任务依赖，不是跨平台的。

Xxl-job的一个大优势是开源且免费，同时它有轻量级、开箱即用、操作简易、上手快、企业维护成本低等特点，因而在中小型公司使用非常广泛。

SchedulerX

分布式任务调度SchedulerX2.0是阿里巴巴基于Akka架构自研的新一代分布式任务调度平台，提供定时调度、调度任务编排和分布式批量处理等功能。

SchedulerX可以在阿里云付费使用。它的功能强大，在阿里巴巴内部广泛使用并久经考验。

TCT

分布式任务调度服务（Tencent Cloud Task）是腾讯云自主研发的一款高性能、高可用通用的分布式任务调度中间件，通过指定时间规则严格触发调度任务，保障调度任务的可靠有序执行。该服务支持国际通用的时间表达式、调度任务执行生命周期管理，解决传统定时调度任务单点及并发性能问题。同时，支持任务分片、流程编排复杂调度任务处理功能，覆盖广泛的任务调度应用场景。

TCT仅在腾讯内部使用，未开源也未商用。

2.8 知识面扩充

分布式定时任务与单机定时任务：

关系：都可以实现自动化的定时、延时、周期任务调度。
差异：分布式定时任务可支撑更大的业务体量。分布式定时任务的性能、伸缩性、稳定性更高。

分布式定时任务与大数据处理引擎：

关系：都可以对海量数据做处理。性能、伸缩性、稳定性都很高。
差异：定时并不是大数据处理引擎要解决的核心问题。大数据处理引擎往往致力于将源数据处理成结果数据；分布式定时任务除了能做这个之外，还可以调用HTTP和RPC服务。

3.实现原理

3.1 核心架构

分布式定时任务核心要解决触发、调度、执行三个关键问题。

触发器：Trigger，解析任务，生成触发事件。
调度器：Scheduler，分配任务，管理任务生命周期。
执行器：Executor，获取执行任务单元，执行任务逻辑。除此之外，还需要提供一个控制台（Admin），提供任务管理和干预功能。

3.1.1 数据流

用户将 [任务基础信息（创建人等），触发规则（定时、延迟、周期），任务代码]发送给控制台。控制台将其存入任务数据库。触发器触发任务执行并调用调度器对任务进行协调与分配。最后执行器执行任务。

3.1.2 功能架构

组件	功能
控制台Admin	元数据存储、元数据状态流转、任务分片、任务依赖、规则引擎、任务暂停/恢复、日志管理、监控报警、指标统计......
触发器Trigger	解析引擎、Scanner、可靠投递（可能用到MQ）、状态流转、补偿策略
调度器Scheduler	调度、负载均衡、幂等控制、容错、故障转移、限流、计费、优雅启停、状态管控......
执行器Executor	注册、任务获取、任务执行、状态上报、日志处理、本地幂等、任务回调......

3.2 控制台

3.2.1 基本概念

名词解释：

任务：job，任务元数据。
任务实例：jobinstance，任务运行的实例。
任务结果：jobresult，任务实例的运行结果。
任务历史：jobhistory，用户可以修改任务信息，任务实例对应的任务元数据可

对应关系：

任务与任务实例是一对多的关系。因为任务能执行多次。
任务实例和任务结果是一对多的关系。因为任务可能失败，需要重试。
任务和任务历史是一对多的关系。记录用户对任务元数据的修改日志。

3.3.2 任务元数据

任务元数据是用户对任务的属性定义，包括任务类型调度时机、执行行为等。

Job：{基础信息（Who，任务名，属于什么业务），调度时机（When，什么时间调度），执行行为（What，要做什么事情），执行方式（How，单机、广播分片）}

3.2.3 任务实例

任务实例是一个确定的job的一次运行实例。

JobInstance：{Job_id（与元数据建立关联，记录是哪个任务的实例），触发时间（预期何时执行，实际上何时执行），状态&结果，过程信息（记录执行路径，可以进行消息追回）}

3.3 触发器

3.3.1 核心职责

给定一系列任务，解析它们的触发规则，在规定的时间点触发任务的调度。

设计约束：

需支持大量任务。
需支持秒级（精确）的调度。
周期任务需执行多次，需要计算执行时间。
需保证秒级扫描的高性能，并避免资源浪费。

3.3.2 方案1

定时扫描+延时消息（腾讯、字节方案）

Scanner周期性扫描db，将需要执行的任务传给消息队列。由于存在延迟，所以扫描时提前将任务取出，发送延时消息（如10分钟后执行某任务）。为了避免重复执行任务，要对db中的数据修改，避免下次扫描又被取出。

3.3.3 方案2

时间轮（Quartz方案）

时间轮是一种高效利用线程资源进行批量化调度的一种调度模型。时间轮是一个存储环形队列，底层采用数组实现，数组中的每个元素可以存放一个定时任务列表。

目标：遍历任务列表，从中找出当前时间点需触发的任务列表。

使用链表存储任务，每个元素代表一个任务。查询复杂度O(n)，修改复杂度O(1)。
由于不需要知道全部任务什么时候执行，而是知道最先执行的任务即可。因此考虑使用最小堆存储任务，按执行时间排序，每个节点存储同执行时间的任务的列表。查询复杂度O(1)，修改复杂度O(logn)。此方法仍然有缺点，因为最小堆实际上是一个数组，而执行时间不同的任务要被存放在不同的节点里，所以当任务量大且任务执行时间各不相同时，最小堆将是一个无限扩大的数组。
使用时间轮（像是一个时钟）存储任务，每个节点存储同执行时间的任务的列表。查询复杂度O(1)，修改复杂度O(1)。缺点是一个时钟可能只有60个刻度（记录每秒要执行的任务），如果一个任务在一分钟后执行，则在任务中加入一个count标致，每次经过任务时count减1，当count等于0时执行任务。
使用多级时间轮存储任务，上级时间轮转过对应刻度后把任务塞入下级时间轮中。如任务距离下次执行1时5分0秒，则它被插入小时时间轮。当小时时间轮指到1时，将所有1时的任务插入到分钟时间轮。这个任务被插入到5分处，而此时分的指针指在0的位置。同理，5分钟后它被插入到0秒的位置然后直接被触发器送进消息队列等待调度器调度。

3.3.4 高可用

核心问题：不同业务之间，任务的调度相互影响怎么办（业务A占用过多资源导致业务B无资源可用）？负责扫描和触发的机器挂了怎么办？

解法思路：

存储上不同地区不同业务做资源隔离。
运行上不同地区不同业务分开执行。
部署时采用多机房集群化部署，避免单点故障，通过数据库锁或分布式锁保证任务只被触发一次。

单trigger模式会有单点故障，机器故障时平台崩溃。trigger集群模式可避免单点故障，需要避免同一任务被多次触发导致业务紊乱。

防止业务紊乱的方法：在触发调度之前，更新数据库中JobInstance的状态（行级锁），成功抢锁的trigger才会触发调度。缺点是多台机器频繁竞争数据库锁，节点越多性能越差。

也可以使用分布式锁的方式，在触发调度之前，尝试抢占分布式锁，可使用Redis锁或Zookeeper锁。性能较高，多家公司使用此方案。

3.4 调度器

要解决的问题：资源来源（机器注册）、资源调度（调度算法）、执行任务

3.4.1 资源来源

由业务系统提供及其资源（阿里、美团、字节等）
- 优点：任务执行逻辑与业务系统公用一份资源，利用率更高。
- 缺点：更容易发生定时任务脚本影响在线服务的事故（因为平时的流量较为均匀而定时任务往往会触发大量的并发任务）。不能由定时任务平台控制扩缩容。
定时任务平台提供机器资源（字节等）
- 优点：任务执行逻辑与业务系统提供的在线服务隔离，避免相互影响。可以支持优雅的扩缩容。
- 缺点：消耗更多机器资源。需要额外为定时任务平台申请调用权限，而不能直接继承业务系统的权限。

相当于一个是自己要估算好需要的资源数，另一个是先建立一个云平台（资源足够）之后用户就不再考虑需要多少资源而是交给平台分配资源。

3.4.2 节点选择

随机节点执行：选择集群中一个可用的执行节点执行调度任务。适用场景：定时对账。
广播执行：在集群中所有的执行节点分发调度任务并执行。适用场景：批量运维。
分片执行：按照用户自定义分片逻辑进行拆分，分发到集群中不同节点并行执行，提升资源利用效率。适用场景：海量日志统计。

任务分片

通过任务分片可以提高任务执行的效率和资源的利用率。

将业务数据分段。假设有N个执行器，最好将业务分为k*N段（让每个执行器负载均匀）。
将任务通过单机任务的方式进行任务分片（用单机将任务拆分），然后通过Map任务把处理逻辑分配到N个执行器上。
前两步给每个执行器传输了数据与程序，执行器即可进行工作。

3.4.3 任务编排

由于子任务的执行会有依赖关系，因此可以使用有向无环图DAG（Directed Acyclic Graph）进行可视化任务编排，用户可以通过图形用户界面（拖拽图的节点与箭头）完成任务的编排，而不是让用户进行硬编码。

故障转移

确保部分执行单元任务失败时，任务最终成功（分片任务基于一致性hash策略分发任务，当某Executor异常时，调度器会对分配到这台机器上的任务进行rehash，将这些任务分发到其它Executor上）。

3.4.4 高可用

调度器可以集群部署，做到完全的无状态，靠消息队列的重试机制保障任务一定会被调度。

3.5 执行器

执行器是最后真正执行任务的组件，基于注册中心，可以做到执行器的弹性扩缩容（发现资源不够时再启动新的执行器并注册）。

执行器进行机器注册，让调度中心知道执行器的存在。
调度器发出调度请求之后执行器在自己的handler里执行任务流程。
执行器执行任务过程中，会向调度中心回传执行日志、回调请求。
任务执行中定时向调度中心进行状态上报（心跳检测），确保执行器故障时调度中心能及时感知，摘除故障执行器并将其任务分派给其它执行器。

4.业务应用

所有需要定时、延时、周期性执行的业务场景都可以考虑使用分布式定时任务。

电商

订单30分钟未付款自动关闭订单。
定时给商家、达人发送消息，给用户发放优惠券等。

互动

集五福、集卡片，瓜分红包。

游戏

活动结束后批量补发用户未领取的奖励。
定期更新游戏内排行榜。

其他解决方案

发货后超十天未收货时系统自动确认收货。

使用分布式定时任务的延时任务。
使用消息队列的延时消息或定时消息。

春节集卡活动统计完成集卡的用户个数和其奖励系数。

使用分布式定时任务的MapReduce任务。
使用大数据离线处理引擎Hive离线做统计。
使用大数据实时处理引擎Flink实时做累计。

方案对比

	时效性	可控性	简洁性	主要缺点
分布式定时任务	秒级	高	高	-
单机定时任务	秒级	高	高	无法支撑很大业务体量
(消息队列)延时消息	实时	低	中	在任务有变化时，已发送的延时消息（延时消息要提前发送）不便于做变更
离线计算	小时级	中	高	延时过高，至少小时级
(flink等)实时计算	秒级	高	中（可能要学新语言语法）	仅能做数据处理，无法调用HTTP/RPC请求完成业务逻辑处理

引用

分布式定时任务|青训营笔记

青训营学习资料