Exactly Once语义在Flink中的实现|青训营笔记

342 阅读10分钟

这是我参与「第四届青训营 」笔记创作活动的的第2天。

一、数据流和动态表

1.传统SQL和流处理

特征SQL流处理
处理数据的有界性处理的表是有界的流是一个无限元组序列
处理数据的完整性执行查询可以访问完整的数据执行查询无法访问所有的数据
执行时间批处理查询产生固定大小结果后终止查询不断更新结果, 永不终止

2.数据流和动态表的转换

表和流是可以动态转化的。 image.png 最左边的数据流转换为动态表Dynamic Table,在查询池进行QUery,连续查询,查询的表对业务数据进行update,或者向下游下发retract消息,查询状态是state,state是为了保证源源不断的输出流是正确的,对表查询结果产生Dynamic Table,再转化为源源不断地数据流,有可能包含retract消息了。

3.在流上定义表

image.png

插入更多的单击流记录时,结果表将不断增长。

动态表:与表示批处理数据的静态表不同,动态表示随时间变化的。可以像查询静态批处理表一样查询他们。

4.连续查询

流式查询

连续查询:

  • 查询从不停止
  • 查询结果会不断更新,产生一个新的动态表

image.png

在任何时候,连续查询的结果在语义上与以批处理模式在输入表快照上执行的相同查询的结果相同。

5.查询产生仅追加数据的动态表

image.png 统计某一个窗口(1小时内)的用户点击次数,并且1小时是不重叠叫TUMBLE window,记录会新插入。

6.两个连续查询对比

  1. 第一个查询更新先前输出的结果,即定义结果表的changelog流包含INSERT和UPDATE操作
  2. 第二个查询只附加到结果表,即结果表的changelog流只包含INSERT操作。

7.Retract消息的产生

image.png Mary再次点击,需要告诉下游,需要先进行回溯,-1,回撤消息,再发更新后的消息,+2点击了两次。

8.状态

image.png

需要存储每个用户的URL计数,以便能够增加该计数并在输入表接受新行时发送新结果。

10.不同数据处理保证的语义

image.png

  1. At-most-once:出现故障的时候,啥也不做。数据处理不保证任何语义,处理时延低(对数据准确性要求不高,数据量大的场景)
  2. At-least-once:保证每条数据均至少被处理一次,一条数据可能存在重复消费。(这种方式银行账单可能重复计费)
  3. Exactly-once:最严格的处理语义,从输出结果来看,每条数据均被消费且仅消费一次,仿佛故障从未发生。

二、Exactly——once和Checkpoint

1.状态快照与恢复

image.png

image.png

对一系列数字流进行运算,三个计算逻辑也就是三个计算算子,第一个算子是source对数据流进行读取,第二个是sum_even就是对偶数进行累加,称为偶数累加器,sum_odd是对奇数进行累加,奇数累加器。

某一时刻对状态进行备份,保存当前的累加状态和是多少,三个计算算子都有状态,在数据读到5时,记录消费数据位点,保存当前的累加和。偶数累加器累加到6,奇数累加器累加到9了,存储需要永不丢失,可靠。继续后面的数据消费,消费到6没有问题,消费到7时,奇数累加器故障了,导致整个作业挂掉了。故障恢复后,重启作业,拿最近的故障恢复时间点,就是消费到5这个节点,把数据恢复到算子当中去,回拨数据流,从一个历史的5后面6开始消费,保证数据不丢不重。

2.制作快照的时间点

状态恢复的时间点:需要等待所有处理逻辑消费完成source保留状态及之前的数据。 一个简单的快照制作算法:

  1. 暂停处理输入的数据;
  2. 等待后续所有处理算子消费当前已经输入的数据
  3. 待2处理完后,作业所有算子复制自己的状态并保存到远端可靠存储;
  4. 恢复对输入数据的处理

3.Chandy-Lamport算法

分布式快照算法: image.png 同时两个数据流,两个source并行处理各自数据,第一个输入结果统计偶数,第二个结果统计奇数累加和。

(1)快照制作的开始

image.png

首先JM向下游发送checkpoint barrier,将数据分开不同的数据段,设置一个故障恢复时间点,制作快照,JM负责往每一个source算子发送的Checkpoint Barrier表示状态快照制作的开始。

(2)Source算子的处理

image.png

source收到checkpoint barrier后,首先短暂的停止自己的处理逻辑,同时将当前的算子结果保存,有一个state backend负责实例化远端,相当于确认自己的状态已经保存,向所有的下游都发送一个checkpoint barrier,完成后source恢复数据处理,不需要等待下游所有算子制作完成。

(3)Barrier Alignment

image.png

source的checkpoint barrier和数据先到达了偶数累加器,source2的checkpoint barrier还未到达,该时间节点称为barrier alignment,即使source1进来新的数据,只会缓存,不会处理,直到source2的check到达后再进行保存和向下游下发barrier。 两个checkpoint barrier到达时间不同,算子会等待所有上有的barrier到达后才开始快照的制作,已经制作完成的上游算子会继续处理数据,并不会被下游算子制作快照的过程阻塞。

(4)快照制作和处理数据的解耦

image.png

类似的过程发生在sink,短暂停止数据处理,完成状态制作和保存,sink没有下游,直接通知JM状态制作完成。

(5)checkpoint的结束

image.png

所有算子都告知JM状态制作完成后,整个Checkpoint就结束了。

4.Checkpoint对作业性能的影响

  1. 解耦了快照制作和数据处理过程,各个算子只算完成状态快照后就可以正常处理数据,不用等下游算子制作完成快照
  2. 在快照制作的和Barrier Alignment过程中需要暂停处理数据,仍然会增加数据处理延迟;
  3. 快照保存到远端也有可能极为耗时。实际中,采用异步保留,同步完成保留复制,statebackend组件负责异步的将数据保留在远端,不会阻止整个的数据处理,进一步减小整个状态的恢复时间。

三、Flink端到端的Exactly-once语义

1.端到端Exactly-once语义

image.png

  1. checkpoint能保证每条数据都对各个有状态的算子更新一次,sink输出算子仍然可能下发重复的数据;
  2. 严格意义的端到端的Exactly-once语义需要特殊的sink算子实现。

2.两阶段提交协议

image.png 在多个节点参与执行的分布式系统中,为了协调每个节点都能同时执行或者回滚某个事务性的操作,引入了一个中心节点来统一处理所有节点的执行逻辑,这个中心节点叫做协作者(Coordinator),被中心节点调度的其他业务节点叫做参与者(Participant)

(1)预提交阶段

  1. 协作者向所有参与者发送一个comit消息;
  2. 每个参与的协作者收到消息后,执行事务,但是不真正提交
  3. 若事务成功执行完成,发送一个成功的消息(vote yes);执行失败,则发送一个失败的消息(vote no)

(2)提交阶段

若协作者成功接收到所有的参与者vote.yes的消息:

  1. 协作者向所有参与者发送一个commit消息
  2. 每个收到commit消息的参与者释放执行事务所需的资源,并结束这次事物的执行;
  3. 完成步骤2后,参与者发送一个ack消息给协作者;
  4. 协作者收到所有参与者的ack消息后,标识该事务执行完成

若协作者有收到参与者vote.no的消息(或者发生等待超时):

  1. 协作者向所以有参与者发送一个rollback消息;
  2. 每个收到rollback消息的参与者回滚事务的执行操作,并释放事务所占资源;
  3. 完成步骤2后,参与者发送一个ack消息给协作者;
  4. 协作者收到所有参与者的ack消息后,表示该事务成功完成回滚。

3.Flink中的2PC Sink

image.png kafka是一个消息队列,可以看成二维队列,有序无限长的数组,source负责从kafka读数据,window统计点击次数,把window计算算子的结果写入到Sink,sink把结果下发给kafka。

image.png

image.png image.png 预提交:协作者向所有参与者提交query to commit,可以预执行事务了,类似于flink的checkpoint,JM向source发送checkpoint barrier,标识事务开始了,状态制作开始了。

image.png

image.png 依次通过source向下传递checkpoint barrier给所有算子,都开始执行状态制作,向state backend反馈vote,成功之后向JM发送成功消息,三个算子都向JM发送状态制作完成,JM发送commit消息,在Flink中,向所有算子发送notify checkpoint,算子状态全部制作完成。

4.Flink两阶段提交总结

  1. 事务开启: 在sink task向下游写数据之前,均会开启一个事务,后续所有写数据的操作均在这个事务中执行,事务未提交前,事务写入的数据下游不可读;
  2. 预提交阶段:JM开始下发Checkpoint Barrier,当各个处理逻辑接收到barrier后停止处理后续数据,对当前状态制作快照,此时sink也不再当前事务下继续处理数据(处理后续的数据需要新打开下一个事务)。状态制作成功则向JM发送成功的消息,失败则发送失败的消息;数据已经写到kafka,但没有commit,下游不可读。
  3. 提交阶段:若JM收到所有预提交成功的消息,则向所有处理逻辑(包括sink)发送可以提交此次事务的消息,sink接收到此消息后,则完成此次事物的提交,下一次恢复可以从这个点安全的从新写数据,此时下游可以读到这次事务写入的数据;若JM有收到预提交失败的消息,则通知所有处理逻辑回滚这次事物的操作,此时sink 搜到回滚时,将kafka中所有的数据丢弃,下游永远不会读到,consumer负责读kafka的数据会直接跳过,读下一部分的数据。

四、实例——账单计算服务

  1. 在上次记录的微店之后,从Kafka中读取固定大小的数据;
  2. 对比该批数据进行去重和聚合计算;
  3. 处理完成后写入Mysql中,若全部写入成功,则记录当前读取到的消息的终止位置;若处理或者写入失败,则不记录位点
  4. 跳回步骤1

image.png

存在的问题:

  1. 非严格的端到端的Exactly-Once语义:若该批数据处理完成后,再写入MySQL中发生异常,则存在部分数据写入的情况,下次作业启动后,这部分数据仍然会重复写入
  2. 去重能力有限:只能在当前处理的一批数据内进行去重,无法在批与批之间进行去重

Flink解决方案优势:

  1. 严格意义上的端到端的Exactly-Once语义:下游读到的数据是不丢不重的;
  2. 增强的去重能力:可以在更长的时间维度对数据进行去重