Exactly Once 语义在 Flink 中的实现 | 青训营笔记

69 阅读3分钟

这是我参与「第四届青训营 」笔记创作活动的第3天

Exactly Once 语义在 Flink 中的实现

概念总结

流式数据

image.png

数据流和动态表

  • Stream: 数据流
  • Dynamic Table: 动态表
  • Continuous Queries: 连续查询
  • Append-only Stream: Append-only 流(只有 INSERT 消息)
  • Retract Stream: Retract 流(同时包含 INSERT 消息和 DELETE 消息)
  • Upsert Stream:: Upsert 流(同时包含 UPSERT 消息和 DELETE 消息)
  • Changelog: 包含 INSERT/UPDATE/DELETE 等的数据流
  • State: 计算处理逻辑的状态

Exactly-Once 和 Checkpoint

  • Application Consistency Guarantees: 作业一致性保证

    • At-most-once:每条数据消费至多一次
    • At-least-once:每条数据消费至少一次
    • Exactly-once: 每条数据都被消费且仅被消费一次
  • Checkpoint: Flink 实现各个计算逻辑状态快照算法,也可指一次状态快照
  • Checkpoint barrier: 用于标识状态快照的制作,也将数据划分成不同的消费区间
  • Checkpoint Alignment: 等待多个上游的Checkpoint barrier到达的现象
  • JobManager: 负责协调和管理 Checkpoint

端到端 Exactly-Once 实现

  • Two-phase commit protocol: 两阶段提交协议
  • Transaction: 一系列保证原子性操作的集合,即操作同时执行或者都不执行
  • Kafka: 消息中间件
  • State Backend: 用于管理和保存状态到远端可靠存储

Flink 案例讲解

  • Deduplication:去重,在 state 保留的时间内对重复消息进行去重
  • Aggregation:聚合操作,比如求和、求最大值等

数据流和动态表

  • 如何在实时数据流中定义 SQL 语义中的表?

    • 动态表   随时间不断变化的表,在任意时刻,可以像查询静态批处理表一样查询它们

image.png

  • 实时流的查询特点?

    • 查询从不终止
    • 查询结果会不断更新,并且会产生一个新的动态表
    • 结果的动态表也可转换成输出的实时流
  • 动态表到实时流的转换

    • Append-only Stream: Append-only 流(只有 INSERT 消息)
    • Retract Stream: Retract 流(同时包含 INSERT 消息和 DELETE 消息)

image.png 比如,需要计算某个用户在网上的点击量,该用户在网站当前的总点击次数就是算子状态,对于新的输入数据,先判断是否是该用户的点击行为,如果是,则将保留的点击次数(状态)增加一,并将当前累加结果输出。

  • 数据流和动态表的转换关系图

Exactly-Once 和 Checkpoint

image.png

一致性保证语义

  • At-most-once:每条数据消费至多一次,处理延迟低
  • At-least-once:每条数据消费至少一次,一条数据可能存在重复消费
  • Exactly-once:每条数据都被消费且仅被消费一次,仿佛故障从未发生

Checkpoint

  • Checkpoint barrier 的下发

端到端 Exactly-Once 实现

两阶段提交协议(2PC)

  • Coordinator:协作者,同步和协调所有节点处理逻辑的中心节点
  • Participant:参与者,被中心节点调度的其他执行处理逻辑的业务节点

两阶段提交协议在 Flink 中的应用

  • Flink 中协作者和参与者的角色分配

  • 协作者(JobManager)发起阶段一提交

  • 各算子 Checkpoint 的制作

  • 提交阶段及 Checkpoint 的制作完成

image.png