首先学习了流式计算的基本概念和难点,然后学习了Watermark的含义、生成方法、传递机制,以及一些典型场景的问题和优化。学习了Window基本功能和高级优化,最后学习了案例分析。
数据价值:实时性越高,数据价值越高。
批处理模型典型的数仓架构为T+1架构,即数据计算是天级别的。
处理时间:数据在流式计算系统中真正处理时所在机器的时间。
事件时间:数据产生的时间,比如说客户端、传感器、后端代码等上报数据的时间。
1.批式计算一般是T+1的数仓架构
2.实时计算分为处理时间和事件事件
3.事件时间需要Watermart 配合来处理乱序。
Watermart:表示系统认为的当前真实的事件时间。晚于watermark的数据到来时,系统会认为这种数据时迟到的数据。
Watermark:
1.含义:表示系统认为的当前真实时间。
2.生成:可以通过Watermark Generator来生成
3.传递:取上游所有subtask的最小值
4.部分数据断流:Idle Source
5.迟到数据处理:Windows算子是丢弃;Join算子认为跟之前的数据无法join到。
1.window分类:滚动窗口、滑动窗口、会话窗口
2.迟到数据处理:AllowLateness、SideOutput
3.增量计算和全量计算模型
4.EMIT触发提前输出窗口的结果
小结:
1.Mini-batch优化解决频繁访问状态的问题
2.local-global优化解决倾斜问题
3.Distinct状态复用降低状态量
4.Pane优化降低滑动窗口的状态存储量。
首先学习了流式计算的基本概念和难点,然后学习了Watermark的含义、生成方法、传递机制,以及一些典型场景的问题和优化。学习了Window基本功能和高级优化,最后学习了案例分析。