《流/批/OLAP一体的Flink引擎介绍》 | 青训营笔记

135 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第2天 《流/批/OLAP一体的Flink引擎介绍》 | 青训营笔记 字节跳动青训营大数据专场:Day 2 流/批/OLAP一体的Flink引擎介绍

01 :Flink概述:

1.1Apache Flink 的诞生背景:

  (大数据特点)

1:大数据(big data)

指无法在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合

1.1.2大数据计算架构发展历史

1.1.3:为什么需要流式计算

因为大数据实时性的要求,带来了大数据计算框架模式的变化

1.2为什么Flink会脱颖而出

流式计算发展历程

1.3Apache Flink开源生态

Flink社区的开原生态:

02 :Flink整体架构:

2.1Flink 分层架构

2.2Flink 整体框架

2.4.1 为什么需要流批一体

DAG:全称是“有向无环图”,没有区块概念,不是把所有数据打包成区块,再用区块链接区块,而是每个用户都可以提交一个数据单元,这个数据单元里可以有很多东西,比如交易、消息等等。数据单元间通过引用关系链接起来,从而形成具有半序关系的DAG(有向无环图)。DAG的特点是把数据单元的写入操作异步化,大量的钱包客户端可以自主异步地把交易数据写入DAG,从而可以支持极大的并发量和极高的速度。同时,使用DAG技术的TrustNote还支持声明式智能合约,声明式的智能合约要表达的意思是可以直接按照用户想要的结果去写、去描述,以很简单的语言,让大家都能看懂的语言去描述他要干的事情

Task 是可执行的实体。是Spark任务调度的最小单元。每个Task都对应一个RDD的分区,也对应Executor任务执行线程池中的一个执行线程。

·(115条消息) 基本概念_Task的基本概念_知乎日报的博客-CSDN博客

·EAGER: 12个task会一起调度,集群需要有足够的资源

·LAZY: 最小调度一个task即可,集群有一个slot资源即可运行

****那张仓鼠图