Exactly Once 语义在 Flink 中的实现 | 青训营笔记这是我参与「第四届青训营 -大数据场」笔记创作活动

这是我参与「第四届青训营 -大数据场」笔记创作活动的第5篇笔记

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

流转化为表，通过动态查询，再由表转化为流

动态表 与表示批处理数据的静态表不同，动态表是随时间变化的。可以像查询静态批处理表一样查询它们。

在任何时候，连续查询的结果在语义上与以批处理模式在输入表快照上执行的相同查询的结果相同。

CheckPoint机制保证xactly-Once语义

Flink容错机制的核心部分是制作分布式数据流和操作算子状态的一直想快照。这些快照充当一致性checkpoint，系统可以在发生故障时回滚。

状态恢复的时间点

需要等待所有处理逻辑消费完成source保留状态及之前的数据

如图：

两个数据流对应两个source，并行独立处理，两个输出结果：统计偶数累加和以及奇数累加和。

快照制作的开始

每一个source算子都收到JM发送的Checkpoint Barrier 标识状态快照制作的开始

JM协助管理快照制作的整个过程，第一步负责向每一个source发送Checkpoint Barrier，Checkpoint Barrier将数据流分开，将数据分成不同的数据段。

Source算子的处理

各个source保存自己状态后，向所有连接的下游继续发送Checkpoint Barrier，同时告知JM自己状态已经制作完成

当source收到Checkpoint Barrier之后，

Barrier Alignment

如图，source1的Checkpoint Barrier，source2的Checkpoint Barrier未到达

快照制作和处理数据的解耦

sink也会有相同的处理(同source)，由于sink没有下游，只好通知JM已经完成

checkpoint的结束

所有算子都告知JM状态制作完成之后，整个checkpoint就结束了

(未完待续)