流计算中的Window 计算 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的的第6天记录一下今天的课程内容，

这是我参与「第四届青训营」笔记创作活动的的第6天

记录一下今天的课程内容。

流计算和批计算的对比

批计算，一般用于统计天级别的数据报表，如统计抖音昨天的日活跃度，需要昨天一天的数据来支撑，通常实际生产环境中一般使用Spark，Hive计算引擎，典型数仓模型架构为T+1架构，即输入数据计算，要等到第二天才能得到计算结果。

数据需要计算一天才能得到结果，如果在计算过程中遇到bug之类，第二天我们就很有可能得不到结果，想要减轻这种影响，简单的做法就是将天级别的数据分为更短的小时级别进行批处理。

但这样做在实际过程中，批计算需要不断的申请和调度数据库资源，不同时段数据的数仓模型也不一定相同，有时并不能按时完成任务，带来的开销也大，我们就需要采用别的方法来做到更实时，就到了流式计算的范畴。

流式计算，也就是实时计算，引入了Window来处理，数据实时流动通过窗口，出窗口时计算出结果。

这样就会产生两个时间，处理时间（Processing Time）和事件时间（Event Time）

处理时间有时会延迟几分钟甚至几小时，如果我们想要用事件时间去计算数据所属窗口的结果，可以使用事件时间窗口。

这样把乱序和延迟的数据，在一定的容忍时间内归到同一个窗口，再进行计算和处理。但容忍时间并不好把握，我们就引入了Watermark来帮助判断。

我们认为在Watermark左边小于它的数据就视为延迟数据，不参与事件计算，如在W(11)左边出现了时间为[8]的数据，就视为延迟数据过滤掉。

与上节课程中Checkpoint的做法类似，上游将自己的Watermark值传递给下游，下游收到后进行一个判断，默认取Watermark数值更小的。

传递过程中的问题:

上游subtask断流
- 解决办法:设置一个idle时间（类似超时时间），当这个subtask不更新的时间超过idle时间时，就向下游发送idld状态，下游在计算Watermark值时，就可以忽略这个上游。

低于Watermark值的数据被视为迟到数据，一般默认丢弃，如果是双流join且是outer join则认为他join不到任何数据，除此之外还有2种处理方式

介绍完Watermark，我们来了解一下Window的主要组成