这是我参与「第四届青训营」笔记创作活动的的第3天
Flink是一个基于无边界、有边界的数据流的计算引擎（流批一体）
第二代采用lambda架构第三代同时实现了高吞吐和低延迟部署模式有会话、单作业、应用模式 yarn模式很常用，在国内

系统架构

Flink 就是一个分布式的并行流处理系统。简单来说，它会由多个进程构成，这些进程一般会分布运行在不同的机器上。
Flink 的运行时架构中，最重要的就是两大组件：作业管理器（JobManger）和任务管理（TaskManager）。对于一个提交执行的作业，JobManager 是真正意义上的“管理者”（Master），负责管理调度，所以在不考虑高可用的情况下只能有一个；而 TaskManager 是“工作者” （Worker、Slave），负责执行任务处理数据，所以可以有一个或多个。
jobmanager是老大，这里注意是manager，要和hadoop中的组件区分

TaskManager 启动之后，JobManager 会与它建立连接，并将作业图（JobGraph）转换成可执行的“执行图”（ExecutionGraph）分发给可用的 TaskManager，然后就由 TaskManager 具体执行任务。
ResourceManager 主要负责资源的分配和管理，在 Flink 集群中只有一个。所谓“资源”，主要是指TaskManager 的任务槽（task slots）。任务槽就是 Flink 集群中的资源调配单元，包含了机器用来执行计算的一组 CPU 和内存资源。每一个任务（Task）都需要分配到一个 slot 上执行。
Dispatcher 主要负责提供一个 REST 接口，用来提交应用，并且负责为每一个新提交的作业启动一个新的 JobMaster 组件。

区别于spark的点

明确了一个数据的所属窗口，不能直接进行计算。因为窗口处理的是有界数据，我们需要等窗口的数据都到齐了，才能计算出最终的统计结果。
我们在数据流中加入一个时钟标记，记录当前的事件时间；这个标记可以直接广播到下游，当下游任务收到这个标记，就可以更新自己的时钟了。由于类似于水流中用来做标志的记号，在 Flink 中，这种用来衡量事件时间（Event Time）进展的标记，就被称作“水位线”（Watermark）。

Flink 引擎介绍（1） | 青训营笔记

系统架构

区别于spark的点