Exactly Once 语义在 Flink 中的实现｜青训营笔记这是我参与「第四届青训营」笔记创作活动的第1天

这是我参与「第四届青训营」笔记创作活动的第1天

回顾

批式计算与流式计算
- 批式计算
  - 离线计算，非实时
  - 静态数据集
  - 小时/天等周期性计算
- 流式计算
  - 实时计算，快速、低延迟
  - 无限流、动态、无边界
  - 7*24h持续运行
  - 流批一体

数据流和动态表

Flink处理的对象是一个实时流（不断有数据产生），怎样用SQL语言将这种实时流相结合

如何将传统的SQL语义与流式数据相结合


特征	SQL	流处理
处理数据的有界性	处理的表是有界的	流是一个无限元组序列
处理数据的完整性	执行查询可以访问完整的数据	执行查询无法访问所有的数据
执行时间	批处理查询产生固定大小结果后终止	查询不断更新结果，永不终止

数据流和动态表转换
- 在流上定义表（流->动态表）
  - 当插入更多的单击流记录时，结果表将不断增长
  - 动态表：与表示批处理数据的静态表不同，动态表随时间变化，可以像查询静态批处理表一样查询他们
- 连续查询（动态表-->动态表）
  - 查询从不终止
  - 查询结果会不断更新，产生一个新的动态表
  - 在任何时候，连续查询的结果在语义上与以批处理模式在输入表快照上执行的相同查询的结果相同
  - 状态：需要存储每个用户的URL计数，以便能够增加该计数并在输入表接收新行时发送新结果
  - 查询可能会有状态，用来不断更新查询的结果
- 查询产生仅追加数据的动态表（动态表-->动态表）
  - 结果表永远不会更新之前的记录
- 两个连续查询对比
  - 虽然看起来很相似（都计算分组计数聚合），但它们在一个重要方面不同：
    1. 第一个查询更新先前输出的结果，即定义结果表的changelog流到INSERT和UPDATE操作
    2. 第二查询只附加到结果表，即结果表的changelog流只包含INSERT操作
- 动态表到实时流的转换（Retract消息的产生）
  - Retract流（回撤流）：同时包含INSERT消息和DELETE消息

不同数据处理保证的语义


At-most-once	出现故障的时候，什么也不做。数据处理不保证任何语义，处理时延低。
At-least-once	保证每条数据均至少被处理一次，一条数据可能存在重复消费。
Exactly-once	最严格的处理语义，从输出结果来看，每条数据均被消费且仅消费一次，仿佛故障从未发生。

Exactly-Once和Checkpoint
- 状态快照与恢复
- 制作快照的时间点
  - 状态恢复的时间点：需要等待所有处理逻辑消费完成source保留状态以及之前的数据
  - 一个简单的快照制作算法：
    1. 暂停处理输入的数据
    2. 等待后续所有处理算子消费当前已经输入的数据
    3. 等待2处理完后，左右所有算子复制自己的状态并保存到远端可靠存储
    4. 恢复堆输入数据的处理
- Chandy-Lamport算法
  - 分布式快照制作算法
    1. 快照制作的开始
      - 每一个source算子都接收到JM发送的Checkpoint Barrier标识状态快照制作开始
      - JobManager：协助完成和管理整个快照制作过程
    2. Source算子的处理
      - 各个source保存自己状态之后，向所有连接的下游继续发送Checkpoint Barrier，同时告知JM自己状态已经制作完成
    3. Barrier Alignment
      - 算子会等待所有上游的barrier到达后才开始快照的制作
      - 已经制作完成的上游算子会继续处理数据，并不会被下游算子制作快照的过程阻塞
    4. 快照制作和处理数据的解耦
      - 当快照开始制作时，需要停止数据的处理；当快照制作完成之后，才能恢复source算子对数据的接收
    5. checkpoint的结束
      - 所有算子都告知JM状态制作完后，整个checkpoint就结束了
  - checkpoint对作业性能的影响
    1. 解耦了快照制作和数据处理过程，各个算子制作完成状态快照后就可以正常处理数据，不用等下游算子制作完成快照；
    2. 在快照制作和Barrier Alignment过程中需要暂停处理数据，仍然会增加数据处理延迟；
    3. 快照保存到远端也有可能极为耗时
端到端Exactly-Once实现
- 端到端Exactly-once语义
  1. checkpoint能保证每条数据都对各个有状态的算子更新一次，sink输出算子仍然可能下发重复的数据；
  2. 严格意义的端到端的Exactly-once语义需要特殊的sink算子实现
- 两阶段提交协议（2PC）
  - 在多个节点参与执行的分布式系统中，为了协调每个节点都能同时执行或者回滚某个事务性的操作，引入了一个中心节点来统一处理所有节点的执行逻辑，这个中心节点叫做“协作者”，被中心节点调度的其他业务节点叫做”参与者“。
  - 预提交阶段
    1. 协作者向所有参与者发送一个commit消息
    2. 每个参与的~~协作者~~参与者受到消息后，执行事务，但是不真正提交
    3. 若事物成功执行完成，发送一个成功的消息；执行失败，则发送一个失败的消息
  - 提交阶段
    1. 若协作者成功接收到所有的参与者的成功的消息
      1. 协作者向所有参与者发送一个commit消息
      2. 每个收到commit消息的参与者释放执行事务所需的资源，并结束这次事物的执行
      3. 完成2后，参与者发送一个ack消息给协作者
      4. 协作者收到所有参与者的ack消息后，标识该事务执行完成
    2. 若协作者成功接收到所有的参与者的失败的消息
      1. 若协作者有收到参与者失败的消息（或者发生等待超时）
        
        协作者向所有参与者发送一个rollback消息
        
        每个收到rollback消息的参与者回滚事务的执行操作，并释放事务所占资源
        
        完成2后，参与者发送一个ack消息给协作者
        
        协作者收到所有参与者的ack消息后，标识该事务成功完成回滚
- Flink两阶段提交总结
  1. 事务开启：在sink task向下游写数据之前，均会开启一个事务，后续所有写数据的操作均在这个事务中执行，事务未提交前，事务写入的数据下游不可读；
  2. 预提交阶段：Job Manager开始下发checkpoint Barrier，当各个处理逻辑接收到barrier后停止处理后续数据，对当前状态制作快照，此时sink也不在当前事务下继续处理数据（处理后续的数据需要重新打开下一个事务）。状态制作成功则向JM成功的消息，失败则发送失败的消息；
  3. 提交阶段：若JM收到所有预提交成功的消息，则向所有处理逻辑（包括sink）发送可以提交此次事务的消息，sink接收到此消息后，则此次事务的提交，此时下游可以督导这次事务写入的数据；若JM有收到预提交失败的消息，则通知所有处理逻辑回滚这次事务的操作，此时sink则丢弃这次事务提交的数据。
Flink案例讲解
- 账单计算服务

Exactly Once 语义在 Flink 中的实现 ｜ 青训营笔记

回顾

数据流和动态表

Exactly-Once和Checkpoint

端到端Exactly-Once实现

Flink案例讲解

Exactly Once 语义在 Flink 中的实现｜青训营笔记