第四届青训营大数据进阶版第一天笔记|青训营笔记

71 阅读2分钟

一、概述

经过昨天的学习,在听课过程中产生了几点问题,经过课下的资料查询,得到了答案,现在进行分享。

二、问题及其解答

1、什么是pipeline?

datastream pipeline是现在的大数据实时处理机制中非常流行的一套理论。 总体上来说就是根据数据在分区中是否存在来读取数据,而不是像ETL一样的进行周期性扫描来对数据进行读取,这样会大大提高数据读取的效率,提高IO的效率。

2、DAG图是什么?spark中为什么要用到DAG图?

DAG图可以说是spark和MapReduce的一个显著区别的体现。因为hadoop中的MapReduce中map过程和reduce过程之间是需要进行落盘,而且每个task中的MapReduce之间是相对独立的,由此带来的结果就是会造成大量的IO和磁盘的浪费,所以现在通过DAG构建出此任务与其依赖任务之间的关系,从未达到更快更节省资源的目的。

3、flink中的subtask是什么?

image.png 如上图中所示,是经典的flink工作原理示意图,但是在老师的讲解中也提到了subtask这个概念,那么这个概念是什么意思呢? 从网上查到,subtask是flink执行的最小执行单元,是将task进行划分的。如下图所示: image.png 其中里面有三个task,有五个subtask。

三、第一天的体验

经过昨天一天的学习,深深感觉到自己的基础还是很薄弱,对于大数据领域要学习的东西非常多,以至于有时会跟不上老师讲解的节奏。与此同时感觉字节老师都是大佬,非常的厉害,通过对问题的查询之后得到的答案,再回去又听了一下,感觉老师讲的还是非常透彻的。 希望之后能够顺利结业。