一、Flink 简介

84 阅读1分钟

image.png

1、Flink 是什么

Apache Flink 是一个框架和分布式处理引擎。用于对无界和有界数据流进行状态计算。

2、Flink 特点

  • 事件驱动(Event-driven)

image.png

  • 基于流处理

    一切皆由流组成,离线数据是有界的流;实时数据是一个没有界限的流。(有界流、无界流)

image.png

  • 分层API

    • 越顶层越抽象,表达含义越简明,使用越方便
    • 越底层越具体,表达能力越丰富,使用越灵活

image.png

3、Flink 对比 Spark Streaming

最主要的区别是,Flink 真的是流,来一个处理一个,Spark Streaming 是微批。

image.png

  • 数据模型

    • Spark采用RDD模型,spark streaming的DStream实际上也就是一组组小批数据RDD的集合
    • flink基本数据模型是数据流,以及事件(Event)序列
  • 运行时架构

    • spark是批计算,将DAG划分为不同的stage,一个完成后才可以计算下一个
    • flink是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节点处理

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。