这是我参与「第四届青训营 」笔记创作活动的的第2天!
Exactly Once 语义在 Flink 中的实现
1 数据流和动态表
1.1 无处不在的数据流
- GPS
- LOT
- IM(微信)
- 短信
- 视频
1.2 传统SQL 和数据流
1.3 概述 数据流和动态表的转换
简单来说就是
流数据 --> 动态表 --> ContinousQuery --> 动态表 --> 流数据
1.3.1 在流上定义表
动态表: 与静态表的批处理不同,动态表是随时间变化的,但是可以像处理静态表一样处理。
如果所示: 左侧的点击事件(流)被 定义成了 右侧的表 随着时间推移,表会不断变长
1.4 连续查询
- 查询 从不停止
- 查询结果会 不断更新,产生新的动态表
如图,从上往下,不同时间查询,相同代码(不同用户的点击次数),结果不一样。
查询的结果就随着时间改变,但是包括了之前的数据。
1.5 查询产生仅追加数据的动态表
这个SQL比较复杂。
简单说:统计用户在窗口时间(1小时内)对某一网站的点击次数。
查询的结果就随着时间改变,并且不包括之前的数据。
1.6 两个连续查询的对比
- 第一个查询更新先前输出的结果,即定义结果的changelog流包含 INSERT 和UPDATE 2个操作
- 第二个查询只附加到结果表,即结果表的changelog流只包含 INSERT 1个操作
1.7 Retract(回撤) 消息的产生
这张图中
“+” 代表点击次数+1
“-” 代表 点击次数-1
如果要更新结果,先发送回撤消息(对应减号),再发送更新后的结果
1.8 状态
需要存储每个用户的URL计数,以便能够增加计数,并在输入表接收新行时发送新结果(可能需要设置DeadLine)
1.9 数据流动态表转换回顾
- 数据流和动态表之间的转换
- 在数据流的查询永远不会停止
- 查询可能会有状态,不断更新结果
1.10 不同数据处理保证的语义
2 Exactly-once 和 Checkpoint
2.1 状态快照与恢复
3个算子
- sum_even: 保存偶数的合
- sum_old: 保存奇数的合
- Input offset: 最近1个输入数据
Storage:某一时刻对状态进行备份,保存当前三个算子状态,每当check point到来,就把这3个数据进行一次对比,数据不一致会进行以下操作。
- 出现了数据不一致的情况
- 清空流数据
- 把存储在storage的数据恢复到流中
- 继续计算
2.2 快照时间点
状态恢复的时间点:需要等待所有处理逻辑消费完成source保留状态及之前的数据。 一个简单的快照制作算法:
- 暂停处理输入的数据;
- 等待后续所有处理算子消费当前已经输入的数据
- 待2处理完后,作业所有算子复制自己的状态并保存到远端可靠存储;
- 恢复对输入数据的处理
2.3 Chandy-Lamport算法
分布式快照算法:
同时存在两个数据流,两个流分别处理各自数据,第一个统计偶数累加和,第二个统计奇数累加和。
制作快照开始
每一个suurce算子都会收到JM发送的Checkpoint Barrier
Source算子的处理
source收到checkpoint barrier后,同时将当前的算子结果暂时保存,向所有的下游都发送一个checkpoint barrier,同时告知JM 自己的状态保存完成
Barrier Alignment
如图:source1的checkpoint barrier到了,但是source2的checkpoint barrier还未到达,该时间节点称为barrier alignment
直到2个checkpoint barrier都到了,才会进行快照制作,继续向下游发送数据
已经制作完成的上游算子会继续处理数据,并不会被下游算子制作快照的过程阻塞。
快照制作和处理数据的解耦
类似的过程发生在sink,保存完当前数据,因为sink没有下游,直接通知JM状态制作完成。
checkpoint的结束
当所有算子告诉JM状态制作完成之后,Checkpoint就结束了
Checkpoint对作业性能的影响
3 Flink端到端的Exactly-once语义
3.1 端到端的Exactly-once语义
- Checkpoint能保证每条数据都对各个有状态的算子更新一次,sink输出算子仍然可能下发重复的数据;
- 严格意义的端到端的Exactly-once语义需要特殊的sink算子实现。
3.2 两阶段提交协议
3.1 预提交阶段
- 协作者向所有参与者发送一个comit消息;
- 每个参与的协作者收到消息后,执行事务,但是不真正提交
- 若事务成功执行完成,发送一个成功的消息(vote yes);执行失败,则发送一个失败的消息(vote no)
3.2 提交阶段
若协作者成功接收到所有的参与者vote.yes的消息
- 协作者向所有参与者发送一个commit消息
- 每个收到commit消息的参与者释放执行事务所需的资源,并结束这次事物的执行;
- 完成步骤2后,参与者发送一个ack消息给协作者;
- 协作者收到所有参与者的ack消息后,标识该事务执行完成
若协作者收到了参与者的vote.no的消息(或者等待超时)
- 协作者向所以有参与者发送一个rollback消息;
- 每个收到rollback消息的参与者回滚事务的执行操作,并释放事务所占资源;
- 完成步骤2后,参与者发送一个ack消息给协作者;
- 协作者收到所有参与者的ack消息后,表示该事务成功完成回滚。
3.3 Flink中的2PC Sink
- source:负责从kafka读数据
- window:统计点击次数,window计算算子的结果写入到Sink
- sink:把结果下发给kafka
预提交阶段
协作者向所有参与者提交query to commit,可以预执行事务了,类似于flink的checkpoint,JM向source发送checkpoint barrier,状态制作开始了。
每个算子都向 State Backend 提交自己的状态
依次通过source向下传递checkpoint barrier给所有算子,都开始执行状态制作,向state backend反馈vote,成功之后向JM发送成功消息,三个算子都向JM发送状态制作完成。
提交阶段 JM发送收到3个Yes,发送commit消息,在Flink中,向所有算子发送notify checkpoint compelete,算子状态全部制作完成,写入下游数据。
3.4 Flink两阶段提交总结
4 Flink 案例讲解
4.1.1 原本方案
- 在上次记录的微店之后,从Kafka中读取固定大小的数据;
- 对比该批数据进行去重和聚合计算;
- 处理完成后写入Mysql中,若全部写入成功,则记录当前读取到的消息的终止位置;若处理或者写入失败,则不记录位点
- 跳回步骤1
4.1.2 存在问题
- 非严格的端到端的Exactly-Once语义:若该批数据处理完成后,再写入MySQL中发生异常,则存在部分数据写入的情况,下次作业启动后,这部分数据仍然会重复写入
- 去重能力有限:只能在当前处理的一批数据内进行去重,无法在批与批之间进行去重
4.1.3 Flink解决方案
- 严格意义上的端到端的Exactly-Once语义:下游读到的数据是不丢不重的;
- 增强的去重能力:可以在更长的时间维度对数据进行去重(比如3个算子都可以增加去重)