流计算中的 Window 计算 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的的第6天。本节课主要讲述了流式

这是我参与「第四届青训营」笔记创作活动的的第6天

本节课主要讲述了流式计算的基本概念，watermark的含义，window的定义，以及相关优化问题，最后包含了两个案例分析。

1. 概述

（实时性越高，价值越大）

（1）Per-subtask watermark：一个source subtask消费多个partition，partition之间数据读取可能会加剧乱序

（2）Per-partition watermark

（3）部分partition/subtask断流：Idle source（设置配置时间）

（4）迟到数据处理：Window聚合，默认丢弃；双流join；CEP，默认丢弃

（1）滚动窗口：每一个key单独划分；每条数据只会属于一个窗口

（2）滑动窗口：每个key单独划分；每条数据可能属于多个窗口

（3）会话窗口：每个key单独划分；每条数据单独划分窗口

（4）迟到数据：丢弃

Allow lateness：设置一个允许迟到的时间（适用于DataStream/SQL）

SideOutput（侧输出流）：打一个tag（适用于DataStream）

（5）增量 vs 全量计算：直接进行计算 vs 保留所有数据一起计算

（6）EMIT：中间结果输出多次

（1）Mini-batch：优化解决频繁访问状态的问题

（2）倾斜优化 local-global

（3）Distinct计算状态复用：降低状态量

（4）Pane优化：降低滑动窗口的状态储存量