一、概述

经过昨天的学习，在听课过程中产生了几点问题，经过课下的资料查询，得到了答案，现在进行分享。

二、问题及其解答

1、什么是pipeline？

datastream pipeline是现在的大数据实时处理机制中非常流行的一套理论。总体上来说就是根据数据在分区中是否存在来读取数据，而不是像ETL一样的进行周期性扫描来对数据进行读取，这样会大大提高数据读取的效率，提高IO的效率。

2、DAG图是什么？spark中为什么要用到DAG图？

DAG图可以说是spark和MapReduce的一个显著区别的体现。因为hadoop中的MapReduce中map过程和reduce过程之间是需要进行落盘，而且每个task中的MapReduce之间是相对独立的，由此带来的结果就是会造成大量的IO和磁盘的浪费，所以现在通过DAG构建出此任务与其依赖任务之间的关系，从未达到更快更节省资源的目的。

3、flink中的subtask是什么？

如上图中所示，是经典的flink工作原理示意图，但是在老师的讲解中也提到了subtask这个概念，那么这个概念是什么意思呢？从网上查到，subtask是flink执行的最小执行单元，是将task进行划分的。如下图所示：其中里面有三个task，有五个subtask。

三、第一天的体验

经过昨天一天的学习，深深感觉到自己的基础还是很薄弱，对于大数据领域要学习的东西非常多，以至于有时会跟不上老师讲解的节奏。与此同时感觉字节老师都是大佬，非常的厉害，通过对问题的查询之后得到的答案，再回去又听了一下，感觉老师讲的还是非常透彻的。希望之后能够顺利结业。

第四届青训营大数据进阶版第一天笔记|青训营笔记