大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day18】——Spark5

75 阅读4分钟

这是我参与8月更文挑战的第18天,活动详情查看: 8月更文挑战

前言

大家好,我是程序员manor。作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招 接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍常见面试题及恰如其分的解答。

  相信只要一路走来,日积月累,我们终会在最高处见。 以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

@[toc] 停🤚 不要往下滑了, 默默想5min, 看看这5道面试题你都会吗?

面试题 01、RDD机制?
面试题02、什么是RDD宽依赖和窄依赖?
面试题 03、cache和pesist的区别?
面试题04、cache后面能不能接其他算子,它是不是action操作?
面试题05、reduceByKey是不是action?

在这里插入图片描述

在这里插入图片描述

以下答案仅供参考:

面试题 01、RDD机制?

rdd分布式弹性数据集,简单的理解成一种数据结构,是spark框架上的通用货币。 所有算子都是基于rdd来执行的,不同的场景会有不同的rdd实现类, 但是都可以进行互相转换。rdd执行过程中会形成dag图,然后形成lineage保证容错性等。从物理的角度来看rdd存储的是block和node之间的映射。 1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;优点:作业特别多时,资源复用率高,适合粗粒度;缺点:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。 2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。

面试题02、什么是RDD宽依赖和窄依赖?

RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency) 1)窄依赖指的是每一个parent RDD的Partition最多被子RDD的一个Partition使用 2)宽依赖指的是多个子RDD的Partition会依赖同一个parent RDD的Partition

面试题03、cache和pesist的区别?

cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间 1) cache只有一个默认的缓存级别MEMORY_ONLY ,cache调用了persist,而persist可以根据情况设置其它的缓存级别; 2)executor执行的时候,默认60%做cache,40%做task操作,persist是最根本的函数,最底层的函数。

面试题04、 cache后面能不能接其他算子,它是不是action操作?

cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作。

面试题05、reduceByKey是不是action?

不是,很多人都会以为是action,reduce rdd是action

总结

今天我们复习了面试中常考的Spark相关的五个问题,你做到心中有数了么? 其实做这个专栏我也有私心,就是希望借助每天写一篇面试题,督促自己学习,以免在面试期间尴尬!平时不流汗,面试多流泪! 对了,如果你的朋友也在准备面试,请将这个系列扔给他, 好了,今天就到这里,学废了的同学,记得在评论区留言:打卡。给同学们以激励。 在这里插入图片描述