数据算法结构｜青训营笔记

用户2695509096679

2022-07-26 75 阅读1分钟

这是我参与「第四届青训营」笔记创作活动的第2天
流/批/OLAP 一体的Flink引擎

FLink 的概述

Apache Flink的诞生背景
- 大数据：海量化、多样化、快速化、价值化
- 传统数仓、Oracle、单机、黑箱使用 ➡️ 分布式、Map-Reduce、离线计算 ➡️ 批/流处理、SQL高阶API，内存迭代计算 ➡️ 流计算、实时更快、流批一体、Streaming/Batch SQL
- 流式计算可以使得大数据的实施性带来的价值更大（实时计算，快速低延迟，动态持续）
Why Flink？
Flink开源生态

Flink整体架构

Flink的分层架构
- SDK层：SQL/Table，DataStream,Python
- 执行引擎层
- 状态储存层
- 资源调度层
Flink的总体架构
- JobManager(JM):整个人物的协调工作
- TaskManager(TM):执行一个DataFlow Graph的各个task以及data streams 的buffer和数据交换
作业案例：

截屏2022-07-26 20.28.22.png

Flink的流批一体
-应用场景&现实需求（流式计算：实时计算，无线数据集，延迟在秒级内；批式计算：离线计算，有限数据集，处理时间为分钟到小时级别，甚至到天级别）
-批式计算也是流式计算的特例
Eager模式/Lazy模式

Flink架构优化

业务场景
- 搜索引擎构建索引，广告推荐，金融风控场景
Flink需要解决的问题

截屏2022-07-26 21.36.18.png 6. 案例：

抖音（如图所示）

截屏2022-07-26 21.50.12.png

电商流批一体
字节Flink OLAP实践