流/批/OLAP 一体的 Flink

Flink概述

监控场景：实时发现业务系统的健康状态，能提前避免业务障碍

金融风控：实时监测异常交易行为，能及时阻断新风险

实时推荐：像淘宝，抖音等根据数据挖掘用户的种种实时推荐内容

大数据实时性带来了架构模式改变

Exactly-Once  精确一次的计算语义

Dataflow编程模式  Window等高阶需求支持友好

SDK层：Flink 的SDK目前主要有三类：SQL/Table，DataStream，Python

执行引擎层：执行引擎层提供了统一的DAG，用来描述数据处理的PIpeline，不论流批，都转化为DAG图，调度层再把DAG转化为分布式环境下的Task，Task之间通过Shuffle传输数据

状态存储层：负责存储算子的状态信息

资源调度层：目前Flink可以支持部署在多种环境

JObManager（JM）：负责任务协调，调度task，触发task做Checkpoint，协调容错恢复

TaskManager（TM）：执行一个DataFlowGraph的各个task以及data streams的buffer和数据交换

JobManager职责

    成本高：两套系统，逻辑相同但是需要开发两次

    数据链冗余：计算内容一致，但是都是两条链路，相同逻辑运行两次浪费资源

    数据口径不一致：两套系统，两套算子，两套udf，通常会产生不同程度的误差给业务带来非常大的困扰

2. 流批一体的挑战

两者处理业务的反应时间不同从而导致处理的业务也有所不同：

流处理实时性采用实时处理，通常反应时间在0·1s内，所接触的业务为广告推荐，金融风控。数据流为无限数据流，可以随时处理数据
批处理离线计算，处理时间以分钟到小时级别，甚至天级别，接触的业务为搜索引擎构建索引，批式数据分析等，数据流为有限数据流，根据数据流的大小决定处理时间，实时性要求不高只关注最终结果产出时间 3. Flink如何做到流批一体

批式处理是流式计算的特例，Everything is Streams，有界数据集也是一种特殊的数据流，所以可以用一套引擎来解决流批处理，只不过需要对不同的场景支持相应的扩展性，并允许不同的优化策略

在Flink的角度，Everything is Streams，无边界数据集是一种数据流，按时间切片成一个个有边界的数据集，所以有界数据集也是数据流。所以批和流式Flink都是天然支持的，并且从API到底层处理机制都统一的，是真正意义的流批一体

Apache Flink 主要从一下几个模块来做流批一体：

4. 流批一体的Scheduler层 Scheduler主要负责将作业的DAG转化为分布式环境可执行的Task

1.12之前的Flink支持Evger和LAZY调度

5. 流批一体的Shuffle Service层

针对不同的分布式计算框架shuffle通常几种不同的实现：

基于文件的Pull Based Shuffle，比如spark或MR，特点是容错性高，适合较大规模的处理作业，由于是基于文件的，他容错性和稳定性会更好一点
基于Pipeline的Push Based Shuffle，比如Flink，Storm，Presto等，她的特点是低延迟和高性能，但是因为Shuffle数据梅村粗下来，如果是batch任务的话，就需要进行重跑恢复

流和批 Shuffle之间的差异

对于Shuffle Service，Flink开源社区已经支持：

Netty Shuffle Service：既支持Pipeline又支持blocking，Flink默认的Shuffle Service策略
Remot Shuffle Service：既支持Pipeline 又支持blocking，不过对于pipeline模式，走remote反而性能下降，主要是有用在batch的blocking场景，字节内部是基于Css来实现RSS