这是我参与「第四届青训营 」笔记创作活动的第2天
01.Flink概述
什么是大数据? 大数据:指无法在一定时间内常规软件工具对其进行获取、存储、管理和处理的数据集合 海量化、多样化、快速化、价值化
为什么需要流式计算?
流式计算
- 实时计算、快速、低延迟
- 无限流、动态、无边界
- 7*24h持续运行
- 流批一体
1.2.2流式计算引擎对比
1.3Flink开源生态
02.Flink整体架构
2.1Flink分层架构
- SDK层:SQL/Table、DataStream、Pyhton
- 执行引擎层
- 状态存储层
- 资源调度层
2.2Flink总体架构
- JobManager:负责整个任务的协调工作
- TaskManger:负责执行一个DataFlowGraph的各个task以及data streams的buffers和数据交换
2.4Flink如何做到流批一体
为什么需要流批一体
流批一体的挑战
Flink如何做到流批一体
流批一体的Scheduler层
- LAZY模式:最小调度一个task即可,集群有1个slot可以运行
流批一体的Shuffle Service层