大数据笔记2 Exactly Once 语义在 Flink 中的实现 | 青训营笔记

120 阅读7分钟

这是我参与「第四届青训营 」笔记创作活动的的第2天!

Exactly Once 语义在 Flink 中的实现

1 数据流和动态表

1.1 无处不在的数据流

  • GPS
  • LOT
  • IM(微信)
  • 短信
  • 视频

1.2 传统SQL 和数据流

image.png

1.3 概述 数据流和动态表的转换

简单来说就是

流数据 --> 动态表 --> ContinousQuery --> 动态表 --> 流数据

image.png

1.3.1 在流上定义表

动态表: 与静态表的批处理不同,动态表是随时间变化的,但是可以像处理静态表一样处理。

如果所示: 左侧的点击事件(流)被 定义成了 右侧的表 随着时间推移,表会不断变长

image.png

1.4 连续查询

  • 查询 从不停止
  • 查询结果会 不断更新,产生新的动态表

如图,从上往下,不同时间查询,相同代码(不同用户的点击次数),结果不一样。
查询的结果就随着时间改变,但是包括了之前的数据

image.png

1.5 查询产生仅追加数据的动态表

这个SQL比较复杂。
简单说:统计用户在窗口时间(1小时内)对某一网站的点击次数。
查询的结果就随着时间改变,并且不包括之前的数据

image.png

1.6 两个连续查询的对比

image.png

  1. 第一个查询更新先前输出的结果,即定义结果的changelog流包含 INSERT 和UPDATE 2个操作
  2. 第二个查询只附加到结果表,即结果表的changelog流只包含 INSERT 1个操作

1.7 Retract(回撤) 消息的产生

这张图中
“+” 代表点击次数+1
“-” 代表 点击次数-1
如果要更新结果,先发送回撤消息(对应减号),再发送更新后的结果

image.png

1.8 状态

需要存储每个用户的URL计数,以便能够增加计数,并在输入表接收新行时发送新结果(可能需要设置DeadLine)

1.9 数据流动态表转换回顾

  1. 数据流和动态表之间的转换
  2. 在数据流的查询永远不会停止
  3. 查询可能会有状态,不断更新结果

1.10 不同数据处理保证的语义

image.png

2 Exactly-once 和 Checkpoint

2.1 状态快照与恢复

image.png

3个算子

  • sum_even: 保存偶数的合
  • sum_old: 保存奇数的合
  • Input offset: 最近1个输入数据

Storage:某一时刻对状态进行备份,保存当前三个算子状态,每当check point到来,就把这3个数据进行一次对比,数据不一致会进行以下操作。

  • 出现了数据不一致的情况

image.png

  • 清空流数据

image.png

  • 把存储在storage的数据恢复到流中

image.png

  • 继续计算

image.png

2.2 快照时间点

状态恢复的时间点:需要等待所有处理逻辑消费完成source保留状态及之前的数据。 一个简单的快照制作算法:

  1. 暂停处理输入的数据;
  2. 等待后续所有处理算子消费当前已经输入的数据
  3. 待2处理完后,作业所有算子复制自己的状态并保存到远端可靠存储;
  4. 恢复对输入数据的处理

2.3 Chandy-Lamport算法

分布式快照算法:
同时存在两个数据流,两个流分别处理各自数据,第一个统计偶数累加和,第二个统计奇数累加和。 image.png

制作快照开始
每一个suurce算子都会收到JM发送的Checkpoint Barrier

image.png

Source算子的处理

source收到checkpoint barrier后,同时将当前的算子结果暂时保存,向所有的下游都发送一个checkpoint barrier,同时告知JM 自己的状态保存完成

image.png

Barrier Alignment
如图:source1的checkpoint barrier到了,但是source2的checkpoint barrier还未到达,该时间节点称为barrier alignment

直到2个checkpoint barrier都到了,才会进行快照制作,继续向下游发送数据
已经制作完成的上游算子会继续处理数据,并不会被下游算子制作快照的过程阻塞。

image.png

快照制作和处理数据的解耦
类似的过程发生在sink,保存完当前数据,因为sink没有下游,直接通知JM状态制作完成。 image.png

checkpoint的结束
当所有算子告诉JM状态制作完成之后,Checkpoint就结束了

image.png

Checkpoint对作业性能的影响

image.png

3 Flink端到端的Exactly-once语义

3.1 端到端的Exactly-once语义

  • Checkpoint能保证每条数据都对各个有状态的算子更新一次,sink输出算子仍然可能下发重复的数据;
  • 严格意义的端到端的Exactly-once语义需要特殊的sink算子实现。

image.png

3.2 两阶段提交协议

3.1 预提交阶段

  1. 协作者向所有参与者发送一个comit消息;
  2. 每个参与的协作者收到消息后,执行事务,但是不真正提交
  3. 若事务成功执行完成,发送一个成功的消息(vote yes);执行失败,则发送一个失败的消息(vote no)

image.png

3.2 提交阶段

若协作者成功接收到所有的参与者vote.yes的消息

image.png

  1. 协作者向所有参与者发送一个commit消息
  2. 每个收到commit消息的参与者释放执行事务所需的资源,并结束这次事物的执行;
  3. 完成步骤2后,参与者发送一个ack消息给协作者;
  4. 协作者收到所有参与者的ack消息后,标识该事务执行完成

若协作者收到了参与者的vote.no的消息(或者等待超时)

image.png

  1. 协作者向所以有参与者发送一个rollback消息;
  2. 每个收到rollback消息的参与者回滚事务的执行操作,并释放事务所占资源;
  3. 完成步骤2后,参与者发送一个ack消息给协作者;
  4. 协作者收到所有参与者的ack消息后,表示该事务成功完成回滚。

3.3 Flink中的2PC Sink

  • source:负责从kafka读数据
  • window:统计点击次数,window计算算子的结果写入到Sink
  • sink:把结果下发给kafka

预提交阶段
协作者向所有参与者提交query to commit,可以预执行事务了,类似于flink的checkpoint,JM向source发送checkpoint barrier,状态制作开始了。

image.png

每个算子都向 State Backend 提交自己的状态
依次通过source向下传递checkpoint barrier给所有算子,都开始执行状态制作,向state backend反馈vote,成功之后向JM发送成功消息,三个算子都向JM发送状态制作完成。

image.png

image.png

提交阶段 JM发送收到3个Yes,发送commit消息,在Flink中,向所有算子发送notify checkpoint compelete,算子状态全部制作完成,写入下游数据。

image.png

3.4 Flink两阶段提交总结

image.png

4 Flink 案例讲解

4.1.1 原本方案

  1. 在上次记录的微店之后,从Kafka中读取固定大小的数据;
  2. 对比该批数据进行去重和聚合计算;
  3. 处理完成后写入Mysql中,若全部写入成功,则记录当前读取到的消息的终止位置;若处理或者写入失败,则不记录位点
  4. 跳回步骤1

image.png

4.1.2 存在问题

  1. 非严格的端到端的Exactly-Once语义:若该批数据处理完成后,再写入MySQL中发生异常,则存在部分数据写入的情况,下次作业启动后,这部分数据仍然会重复写入
  2. 去重能力有限:只能在当前处理的一批数据内进行去重,无法在批与批之间进行去重

4.1.3 Flink解决方案

image.png

  1. 严格意义上的端到端的Exactly-Once语义:下游读到的数据是不丢不重的;
  2. 增强的去重能力:可以在更长的时间维度对数据进行去重(比如3个算子都可以增加去重)

课程总结

image.png