这是我参与「第四届青训营 」笔记创作活动的第4天

94 阅读2分钟

首先学习了流式计算的基本概念和难点,然后学习了Watermark的含义、生成方法、传递机制,以及一些典型场景的问题和优化。学习了Window基本功能和高级优化,最后学习了案例分析。

数据价值:实时性越高,数据价值越高。

批处理模型典型的数仓架构为T+1架构,即数据计算是天级别的。

处理时间:数据在流式计算系统中真正处理时所在机器的时间。

事件时间:数据产生的时间,比如说客户端、传感器、后端代码等上报数据的时间。

1.批式计算一般是T+1的数仓架构

2.实时计算分为处理时间和事件事件

3.事件时间需要Watermart 配合来处理乱序。

Watermart:表示系统认为的当前真实的事件时间。晚于watermark的数据到来时,系统会认为这种数据时迟到的数据。

Watermark:

1.含义:表示系统认为的当前真实时间。

2.生成:可以通过Watermark Generator来生成

3.传递:取上游所有subtask的最小值

4.部分数据断流:Idle Source

5.迟到数据处理:Windows算子是丢弃;Join算子认为跟之前的数据无法join到。

1.window分类:滚动窗口、滑动窗口、会话窗口

2.迟到数据处理:AllowLateness、SideOutput

3.增量计算和全量计算模型

4.EMIT触发提前输出窗口的结果

小结:

1.Mini-batch优化解决频繁访问状态的问题

2.local-global优化解决倾斜问题

3.Distinct状态复用降低状态量

4.Pane优化降低滑动窗口的状态存储量。

首先学习了流式计算的基本概念和难点,然后学习了Watermark的含义、生成方法、传递机制,以及一些典型场景的问题和优化。学习了Window基本功能和高级优化,最后学习了案例分析。