神相

赞

25

|

搜索文章

大数据面试题之Spark(7)

Spark实现wordcount 在Spark中实现Word Count是一个经典的入门级示例，展示了如何处理和统计文本文件中的单词数量。下面分别给出使用Scala、Python（PySpark）和J

1年前
219
点赞
评论

大数据面试题之Spark(7)

大数据面试题之Spark(6)

Spark输出文件的个数，如何合并小文件? 在Apache Spark中，输出文件的个数通常由RDD（弹性分布式数据集）或DataFrame/Dataset在进行保存操作（如saveAsTextFil

1年前
299
点赞
评论

大数据面试题之Spark(6)

大数据面试题之Spark(5)

Spark SQL与DataFrame的使用? Spark SQL 是 Apache Spark 中的一个重要模块，它允许用户使用 SQL 查询或者 DataFrame API 来处理结构化和半结构化

1年前
205
点赞
评论

大数据面试题之Spark(5)

大数据面试题之Spark(4)

Executor内存分配? 在Apache Spark中，Executor的内存分配是通过一系列配置参数来控制的，旨在优化资源利用和提高执行效率。以下是对Executor内存分配的关键点概述： 1、E

1年前
99
点赞
评论

大数据面试题之Spark(4)

大数据面试题之Spark(3)

Spark的哪些算子会有shuffle过程? 在Apache Spark中，以下是一些常见的会导致shuffle过程的算子： 1、reduceByKey: 这个算子会对RDD中的元素按键进行分组，并对

1年前
234
点赞
评论

大数据面试题之Spark(3)

大数据面试题之Spark(2)

介绍下Spark Shuffle及其优缺点 Spark Shuffle是Spark中用于处理数据在Map和Reduce阶段之间交换和重组的关键机制。它通常发生在数据需要在不同的节点之间进行交换和重组时

1年前
232
点赞
评论

大数据面试题之Spark(2)

大数据面试题之Spark(1)

Spark的任务执行流程 Apache Spark 的任务执行流程主要分为以下几个阶段：初始化与作业提交创建SparkContext：Spark应用程序启动时，首先创建一个SparkContext

1年前
208
点赞
评论

大数据面试题之Spark(1)

大数据面试题之HBase(3)

HBase的预分区 HBase的预分区（Pre-Splitting）是一种优化手段，用于在创建表时提前规划好表的分区结构，以减少数据写入过程中自动分区（Region Split）所带来的资源消耗和性能

1年前
170
点赞
评论

大数据面试题之HBase(3)

大数据面试题之HBase(2)

列式数据库的适用场景和优势?列式存储的特点? HBase的rowkey设计原则 HBase的rowkey为什么不能超过一定的长度?为什么要唯一?rowkey太长会影响Hfile的存储是吧? HBa

1年前
120
点赞
评论

大数据面试题之HBase(2)

大数据面试题之HBase(1)

介绍下HBase HBase优缺点说下HBase原理介绍下HBase架构 HBase读写数据流程 HBase的读写缓存在删除HBase中的一个数据的时候，它什么时候真正的进行删除呢?

1年前
279
点赞
评论

个人成就

文章被点赞 35

文章被阅读 22,826

加入于

2020-03-19