一、Flink 简介1、Flink 是什么 Apache Flink 是一个框架和分布式处理引擎。用于对无界和有界数据流

1、Flink 是什么

Apache Flink 是一个框架和分布式处理引擎。用于对无界和有界数据流进行状态计算。

2、Flink 特点

事件驱动（Event-driven）

基于流处理

一切皆由流组成，离线数据是有界的流；实时数据是一个没有界限的流。（有界流、无界流）

分层API
- 越顶层越抽象，表达含义越简明，使用越方便
- 越底层越具体，表达能力越丰富，使用越灵活

3、Flink 对比 Spark Streaming

最主要的区别是，Flink 真的是流，来一个处理一个，Spark Streaming 是微批。

数据模型
- Spark采用RDD模型，spark streaming的DStream实际上也就是一组组小批数据RDD的集合
- flink基本数据模型是数据流，以及事件（Event）序列
运行时架构
- spark是批计算，将DAG划分为不同的stage，一个完成后才可以计算下一个
- flink是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点处理

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

一、Flink 简介

1、Flink 是什么

2、Flink 特点

事件驱动（Event-driven）

基于流处理

分层API

3、Flink 对比 Spark Streaming

数据模型

运行时架构