一、概述
经过昨天的学习,在听课过程中产生了几点问题,经过课下的资料查询,得到了答案,现在进行分享。
二、问题及其解答
1、什么是pipeline?
datastream pipeline是现在的大数据实时处理机制中非常流行的一套理论。 总体上来说就是根据数据在分区中是否存在来读取数据,而不是像ETL一样的进行周期性扫描来对数据进行读取,这样会大大提高数据读取的效率,提高IO的效率。
2、DAG图是什么?spark中为什么要用到DAG图?
DAG图可以说是spark和MapReduce的一个显著区别的体现。因为hadoop中的MapReduce中map过程和reduce过程之间是需要进行落盘,而且每个task中的MapReduce之间是相对独立的,由此带来的结果就是会造成大量的IO和磁盘的浪费,所以现在通过DAG构建出此任务与其依赖任务之间的关系,从未达到更快更节省资源的目的。
3、flink中的subtask是什么?
如上图中所示,是经典的flink工作原理示意图,但是在老师的讲解中也提到了subtask这个概念,那么这个概念是什么意思呢?
从网上查到,subtask是flink执行的最小执行单元,是将task进行划分的。如下图所示:
其中里面有三个task,有五个subtask。
三、第一天的体验
经过昨天一天的学习,深深感觉到自己的基础还是很薄弱,对于大数据领域要学习的东西非常多,以至于有时会跟不上老师讲解的节奏。与此同时感觉字节老师都是大佬,非常的厉害,通过对问题的查询之后得到的答案,再回去又听了一下,感觉老师讲的还是非常透彻的。 希望之后能够顺利结业。