Exactly Once 语义在 Flink 中的实现 | 青训营笔记

135 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第2天

Exactly Once 语义在 Flink 中的实现 | 青训营笔记

1. 数据流和动态表

知识回顾 image.png 传统sql和流处理

image.png

  • 如何在实时数据流中定义 SQL 语义中的表?

    • 动态表 随时间不断变化的表,在任意时刻,可以像查询静态批处理表一样查询它们
  • 实时流的查询特点?

    • 查询从不终止
    • 查询结果会不断更新,并且会产生一个新的动态表
    • 结果的动态表也可转换成输出的实时流

image.png

  • 动态表到实时流的转换

    • Append-only Stream: Append-only 流(只有 INSERT 消息)
    • Retract Stream: Retract 流(同时包含 INSERT 消息和 DELETE 消息)

image.png

  • Upsert Stream:: Upsert 流(同时包含 UPSERT 消息和 DELETE 消息)

image.png

  • 算子状态

    •   在流式计算中,会存在有状态的计算逻辑(算子),有状态的算子典型处理逻辑如下图所示:

image.png   比如,需要计算某个用户在网上的点击量,该用户在网站当前的总点击次数就是算子状态,对于新的输入数据,先判断是否是该用户的点击行为,如果是,则将保留的点击次数(状态)增加一,并将当前累加结果输出。

  • 数据流和动态表的转换关系图

image.png

2. Exactly-Once 和 Checkpoint

2.1 一致性保证语义

image.png

  • At-most-once:每条数据消费至多一次,处理延迟低
  • At-least-once:每条数据消费至少一次,一条数据可能存在重复消费
  • Exactly-once:每条数据都被消费且仅被消费一次,仿佛故障从未发生

image.png

2.2 Checkpoint

  • check point对作业性能的影响

image.png

image.png

image.png

image.png

  • Checkpoint 并不阻塞算子数据处理 image.png
  • Checkpoint ACK和制作完成

image.png

3. 端到端 Exactly-Once 实现

image.png

  1. checkpoint 能保证每条数据都对各个有状态的算子更新一次 sink输出算子仍然可能下发重复的数据
  2. 严格意义上的端到端 exactly-once 语义需要特殊的sink算子来实现

3.1 两阶段提交协议(2PC)

两阶段提交协议

image.png 协作者 :同步和协调所有节点处理逻辑的中心节点

参与者 :被中心节点调度的其他执行处理逻辑的业务节点

3.2 两阶段提交协议在 Flink 中的应用

  • Flink 中2PC Sink
  • 协作者和参与者的角色分配

image.png

    1. 协作者(JM)发起阶段 提交

image.png

  • 2. 各算子制作

image.png

  • 3. 提交阶段:checkpoint制作完成

image.png flink 两阶段提交协议总结

image.png

4. 课程总结

image.png

  • 数据流和动态表可以互换
  • 动态无限数据流算子可以有状态
  • flink通过checkpoint机制来实现故障前后状态恢复及快照制作
  • 两阶段提交协议:结合flink checkpoint机制 实现了严格意义的端到端 exactly-once语义