流计算中的 Window 计算|青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第3天

典型数仓架构T+1架构，数据计算是天时的常用计算引擎为hive或者spark等，

窗口结束直接发生结果，不需要周期调度任务

数据在流计算处理时机器所在的机器当前时间数据产生时间，例如后端上报数据的时间

表示系统认为的当前真实的事件时间 watermark传递机制，（上游subtack的watermark不更新的情况）提出Idle source解决方案迟到数据处理：晚于watermark的数据到来时间（处理方式：Window聚合、双流join、CEP）

滚动窗口

滑动窗口

会话窗口

需求一：使用FlinkSQL计算抖音的日活曲线

使用滚动窗口、EMIT的输出

table.exec.emit.early-fire.enabled=true
table.exec.emit.early-fire.delay=5min

问题：所有数据都需要在一个substack中完成窗口计算，无法并行

通过两阶段聚合把数据打散，完成第一轮聚合，第二轮集合只需要对各个分桶的结果求和即可

table.exec.emit.early-fire.enabled=true
table.exec.emit.early-fire.delay=5min
table.exec.window.allow-retract-input=ture

需求二

问题描述： 大数据任务（离线）运行时通常会有多个container启动并运行，每个container在运行结束的时候。Yarn会负责将它的资源使用（CPU\内存）情况上报，一般大数据任务运行时间从几分钟到几小时不等

需求： 根据Yarn上报的各个container的信息，在任务结束的时候，尽快的计算出一个任务运行时所消耗的总的资源，假设两个container结束时间差不超过10min

典型的可以通过会话窗口将数据划分到一个window中，然后再将结果求和即可

Q&A 学习思路：去社区做一些了解，做小实验验证自己的理解，一步步完成项目二流式计算系统的开发（不难）