这是我参与【第四届青训营】笔记创造活动的第三天。
1. 数据流和动态表
-
动态表 : 随时间不断变化的表,在任意时刻,可以像查询静态批处理表一样查询它们
-
实时流的查询特点?
- 查询从不终止
- 查询结果会不断更新,并且会产生一个新的动态表
- 结果的动态表也可转换成输出的实时流
-
Stream: 数据流
-
Dynamic Table: 动态表
-
Continuous Queries: 连续查询
-
Append-only Stream: Append-only 流(只有 INSERT 消息)
-
Retract Stream: Retract 流(同时包含 INSERT 消息和 DELETE 消息)
-
Upsert Stream:: Upsert 流(同时包含 UPSERT 消息和 DELETE 消息)
-
Changelog: 包含 INSERT/UPDATE/DELETE 等的数据流
-
State: 计算处理逻辑的状态
-
动态表到实时流的转换
- Append-only Stream: Append-only 流(只有 INSERT 消息)
- Retract Stream: Retract 流(同时包含 INSERT 消息和 DELETE 消息)
-
Upsert Stream:: Upsert 流(同时包含 UPSERT 消息和 DELETE 消息)
-
数据流和动态表的转换关系图
2. Exactly-Once 和 Checkpoint
一致性保证语义
- At-most-once:每条数据消费至多一次,处理延迟低
- At-least-once:每条数据消费至少一次,一条数据可能存在重复消费
- Exactly-once:每条数据都被消费且仅被消费一次,仿佛故障从未发生
- Checkpoint: Flink 实现各个计算逻辑状态快照算法,也可指一次状态快照
- Checkpoint barrier: 用于标识状态快照的制作,也将数据划分成不同的消费区间
- Checkpoint Alignment: 等待多个上游的Checkpoint barrier到达的现象
- JobManager: 负责协调和管理 Checkpoint
Checkpoint对作业性能的影响:
1.解耦了快照制作和数据处理过程,各个算子制作完成状态快照后就可以正常处理数据,不用等下游算子制作完成快照
2.在快照制作和Barrier Alignment过程中需要暂停处理数据,仍然会增加数据处理延迟
3.快照保存到远端也有可能极为耗时。 3. 端到端 Exactly-Once 实现
两阶段提交协议(2PC):
- Coordinator:协作者,同步和协调所有节点处理逻辑的中心节点
- Participant:参与者,被中心节点调度的其他执行处理逻辑的业务节点