这是我参与「第四届青训营」笔记创作活动的的第2天

Flink概述

1.1Apache Flink背景

$大数据：无法在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合；$

史前阶段~2006：

Hadoop:

Spark

Flink

大数据实时性的需求，大数据计算架构模式形成了从批式计算从流式计算的转变

SDK层：SQL/Table、DataStream、PyFlink
执行引擎层（Runtime）：执行引擎层提供了统一的DAG用来描述数据处理，不管是流还是批，都会统一转换成DAG图，调度层把DAG转换成分布式环境下Task，然后通过Shuffle传输数据；
状态存储层：负责存储算子的状态信息；
资源调度层：目前Flink可以部署在多种环境；

一个Flink集群，主要包含以下两个核心组件

Dispatcher：接收作业，拉起JobMannager来执行作业，并在JobMannager挂掉之后恢复作业； JobMaster：管理Job的整个生命周期； ResourceMannager：负责slot资源的管理和调度；

$流式的WorkCount示例：从Kafka中读取一个实时数据流，每10s统计一次单词出现次数，DataStream实现代码如下:$

业务逻辑转换成数据流图：