输出算子 Sink
时间窗口
分布式系统,要处理的数据是源源不断来的,所以,数据不是同时产生,也不是同时进入flink系统,
也不是同时处理
问题:数据产生的时间,数据进行flink系统的时间,某一个运算来处理这个数据的时间,是完全不一样的
水位线:指示事件时间进展
插入水位线:来一个数据插入一个 vs 周期性的插入水位线
对于乱序的数据,还有设置一个延迟时间,等几秒
flink的状态
zhuanlan.zhihu.com/p/399764479
flink状态的持久化
持久化策略有两种: 1. 全量持久化策略:每次把全量的状态写到状态存储 2. 增量持久化策略:每次只持久化增量的状态
Flink 状态过期是如何清理的?
做完整快照时,会在获取完整状态快照时激活清理,减小大小 通过增量快照时,当进行状态访问或者处理数据时,会在回调函数中处理,当每次增量清理触发时,遍历状态,清理过期状态