数据算法结构|青训营笔记

75 阅读1分钟

这是我参与「第四届青训营」笔记创作活动的第2天
流/批/OLAP 一体的Flink引擎

  1. FLink 的概述
  • Apache Flink的诞生背景

    • 大数据:海量化、多样化、快速化、价值化
    • 传统数仓、Oracle、单机、黑箱使用 ➡️ 分布式、Map-Reduce、离线计算 ➡️ 批/流处理、SQL高阶API,内存迭代计算 ➡️ 流计算、实时更快、流批一体、Streaming/Batch SQL
    • 流式计算可以使得大数据的实施性带来的价值更大(实时计算,快速低延迟,动态持续)
  • Why Flink? 截屏2022-07-26 10.45.03.png

  • Flink开源生态

    截屏2022-07-26 12.36.31.png

  1. Flink整体架构
  • Flink的分层架构
    • SDK层:SQL/Table,DataStream,Python
    • 执行引擎层
    • 状态储存层
    • 资源调度层
  • Flink的总体架构
    • JobManager(JM):整个人物的协调工作
    • TaskManager(TM):执行一个DataFlow Graph的各个task以及data streams 的buffer和数据交换
  • 作业案例:

截屏2022-07-26 20.28.22.png

  • Flink的流批一体
  • -应用场景&现实需求(流式计算:实时计算,无线数据集,延迟在秒级内;批式计算:离线计算,有限数据集,处理时间为分钟到小时级别,甚至到天级别)
  • -批式计算也是流式计算的特例
  • 截屏2022-07-26 21.12.02.png
  • Eager模式/Lazy模式
  1. Flink架构优化
  • 业务场景
    • 搜索引擎构建索引,广告推荐,金融风控场景
  • Flink需要解决的问题

截屏2022-07-26 21.36.18.png 6. 案例:

  • 抖音(如图所示)

截屏2022-07-26 21.50.12.png

  • 电商流批一体
  • 字节Flink OLAP实践