Flink/流批OLAP一体｜青训营笔记这是我参与「第四届青训营」笔记创作活动的的第2天大数据：指无法在一定时

这是我参与「第四届青训营」笔记创作活动的的第2天

大数据：指无法在一定时间内用常规软件工具对其进行获取，储存，处理的数据集合

Haddop =》 Spark =》 Flink （流计算，实时，更快）

实时性：监控业务系统的健康，金融风控，实时推荐用户爱好

流式计算：实时，无限流，动态，无边界，每小时持续运行

Why Flink：

Flink分层结构：

SDK层：SQL/TABLE, Datastream, Python
执行引擎层：提供了统一的DAG, 用来描述数据处理的pipeline，然后在调度层，把DAG转化成分布式环境下的task，task之间通过shuffle传输数据
状态存储层( State Backend)
资源调度层 (Resource Manager)

Flink整体架构：

JobManager:

Streaming DataFlow Graph： Source -> map()-> keyBy(), window(), apply() -> Sink

为什么要流批一体？人力成本低：只需要开发一遍逻辑

流式计算：

批式计算：

两种调度模式：

流和批shuffle的区别：

Flink/流批OLAP一体 ｜青训营笔记