流/批/OLAP一体的Flink引擎 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第5天 Flink概述大数

这是我参与「第四届青训营」笔记创作活动的第5天

大数据(Big Data)：指无法在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。

大数据计算机架构

graph TD
2006及以前--> Hadoop --> Spark --> Flink

实时性 --> 流式计算（Flink 流批一体）

屏幕截图 2022-07-29 221242.png

两个核心组件：JobManager和TaskManager

JM：负责整个任务的协调工作，包括：调度task、触发协调Task做Checkpoint、协调容错恢复等。

TM：负责执行一个DataFlow Graph的各个task以及data streams的buffer和数据交换

屏幕截图 2022-07-29 215654.png

Dispatcher：接收作业，拉起JM来执行作业，并在JM挂掉之后恢复作业

Job Manager：管理一个job的生命周期，向ResourceManager申请slot，并将task调度到对应的TM上

ResourceManager：负责slot资源的管理和调度，TM拉起之后会向RM注册

流/批的区别（此处是表格）

| --- | 流式计算 | 批式计算 |

| 数据流 | 无限 | 有限 |

| 时延 | 低延迟，业务会感知运行情况 | 实时性要求低，只关注最终结果产出时间 |

|业务场景|广告推荐、金融风控 | 搜索引擎构建索引、批式数据分析 |

如何实现流批一体？

可从以下几个模块做到流批一体：

3.流批一体的Scheduler层

屏幕截图 2022-07-29 224212.png

5.流批一体的Shuffle Service层

小结：Flink提供一套统一的Shuffle架构，兼顾流与批的个性与共性

经过以上改造，Flink已经针对DataStream层、调度层。Shuffle Service层均完成了对流和批的支持。

本文如有任何错误，欢迎批评指正~

内容主要参考了青训营王蒙老师流/批/OLAP一体的Flink引擎的PPT