流/批/OLAP 一体的 Flink 引擎介绍| 青训营笔记

49 阅读1分钟

这是我参与「第四届青训营 」笔记创作活动的第2天

01.Flink概述

什么是大数据? 大数据:指无法在一定时间内常规软件工具对其进行获取、存储、管理和处理的数据集合 海量化、多样化、快速化、价值化

image.png

为什么需要流式计算?

image.png

流式计算

  • 实时计算、快速、低延迟
  • 无限流、动态、无边界
  • 7*24h持续运行
  • 流批一体

1.2.2流式计算引擎对比

image.png

1.3Flink开源生态

image.png

02.Flink整体架构

2.1Flink分层架构

  • SDK层:SQL/Table、DataStream、Pyhton
  • 执行引擎层
  • 状态存储层
  • 资源调度层

2.2Flink总体架构

  • JobManager:负责整个任务的协调工作
  • TaskManger:负责执行一个DataFlowGraph的各个task以及data streams的buffers和数据交换

2.4Flink如何做到流批一体

为什么需要流批一体

image.png

流批一体的挑战

image.png

image.png

Flink如何做到流批一体

image.png

image.png

流批一体的Scheduler层

  • LAZY模式:最小调度一个task即可,集群有1个slot可以运行

流批一体的Shuffle Service层