这是我参与「第四届青训营」笔记创作活动的第2天
流/批/OLAP 一体的Flink引擎
- FLink 的概述
-
Apache Flink的诞生背景
-
- 大数据:海量化、多样化、快速化、价值化
-
- 传统数仓、Oracle、单机、黑箱使用 ➡️ 分布式、Map-Reduce、离线计算 ➡️ 批/流处理、SQL高阶API,内存迭代计算 ➡️ 流计算、实时更快、流批一体、Streaming/Batch SQL
-
- 流式计算可以使得大数据的实施性带来的价值更大(实时计算,快速低延迟,动态持续)
-
Why Flink?
-
Flink开源生态
- Flink整体架构
- Flink的分层架构
-
- SDK层:SQL/Table,DataStream,Python
-
- 执行引擎层
-
- 状态储存层
-
- 资源调度层
- Flink的总体架构
-
- JobManager(JM):整个人物的协调工作
-
- TaskManager(TM):执行一个DataFlow Graph的各个task以及data streams 的buffer和数据交换
- 作业案例:
- Flink的流批一体
- -应用场景&现实需求(流式计算:实时计算,无线数据集,延迟在秒级内;批式计算:离线计算,有限数据集,处理时间为分钟到小时级别,甚至到天级别)
- -批式计算也是流式计算的特例
- Eager模式/Lazy模式
- Flink架构优化
- 业务场景
-
- 搜索引擎构建索引,广告推荐,金融风控场景
- Flink需要解决的问题
6. 案例:
- 抖音(如图所示)
- 电商流批一体
- 字节Flink OLAP实践