大数据

大数据

大数据

大数据相关文章

等 89 人订阅共32篇文章创建于2021-05-26

Flink 大厂面试题

简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽

4年前
13k
205
评论

Spark 大厂面试题

Kryo序列化 Kryo序列化比Java序列化更快更紧凑，但Spark默认的序列化是Java序列化并不是Spark序列化，因为Spark并不支持所有序列化类型，而且每次使用都必须进行注册。注册只针对于

4年前
10k
180
评论

Spark 大厂面试题

Spark解决什么问题二 Spark为什么会有自己的资源调度器三 Spark运行模式四 Spark常用端口号五 Spark提交作业参数六 Spark的transformation算子

4年前
12k
204
评论

Hadoop 大厂面试题

这是我参与更文挑战的第27天，活动详情查看：更文挑战 1 Shuffle优化 Map阶段增大环形缓冲区大小。由100m扩大到200m 增大环形缓冲区溢写的比例。由80%扩大到90% 减少对溢写文件的

4年前
7.0k
121
评论

Hadoop 大厂面试题

Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 ，Hadoop配置文件以及简单的Hadoop集群搭建

4年前
6.8k
145
评论

Hive 大厂面试题

Hive的架构 Hive元数据默认存储在derby数据库，不支持多客户端访问，所以将元数据存储在MySQl，支持多客户端访问。 2 Hive和e和数据库比较，Hive 和数据库除了拥有类似的查询语言，

4年前
7.6k
137
评论

Spark Streaming 大厂面试题

Spark Streaming第一次运行不丢失数据 kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据

4年前
7.1k
123
1

Spark 之算子调优（二）

算子调优四：filter与coalesce的配合使用在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤，在任务初始阶段，

4年前
6.5k
141
评论

Spark 之算子调优（一）

、算子调优一：mapPartitions 普通的map算子对RDD中的每一个元素进行操作，而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子，假设一个partit

5年前
7.6k
142
评论

Spark 之 JVM调优

对于JVM调优，首先应该明确，full gc/minor gc，都会导致JVM的工作线程停止工作，即stop the world。 JVM调优一：降低cache操作的内存占比 1. 静态内存管理机

5年前
8.0k
142
评论

Spark 之 Shuffle调优

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢

5年前
6.3k
144
2

Spark 之 Shuffle调优

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

常规性能调优四：并行度调节 Spark作业中的并行度指各个stage的task的数量。如果并行度设置不合理而导致并行度过低，会导致资源的极大浪费

5年前
6.9k
131
评论

Spark 常规性能调优之并行度调节、广播大变量、Kryo序列化

Spark 常规性能调优之最优资源配置

常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策

5年前
7.4k
116
2

Spark 之解决数据倾斜（三）

数据倾斜解决方案六：使用随机key实现双重聚合当使用了类似于groupByKey、reduceByKey这样的算子时，可以考虑使用随机key实现双重聚合首先，通过map算子给每个数据的key添加随机

5年前
7.3k
140
评论

Spark 之解决数据倾斜（三）

Spark 之解决数据倾斜（二）

数据倾斜解决方案三：过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据，那么可以考虑将可能导致数据倾斜的key进行过滤，滤除可能导致数据倾斜的key对应的数据，这样，在Spark作业中就不会

5年前
7.0k
142
1

Spark 之解决数据倾斜（一）

介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据

5年前
7.2k
135
评论

Spark 之故障排除（二）

这是我参与更文挑战的第12天，活动详情查看：更文挑战 5 故障排除四：解决算子函数返回NULL导致的问题在一些算子函数里，需要我们有一个返回值，但是在一些情况下我们不希望有返回值，此时我们如果直接返

5年前
6.9k
110
评论

Spark 之故障排除（一）

故障排除一：控制reduce端缓冲大小以避免OOM 在Shuffle过程，reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取，而是map端写一点数据，reduce端task

5年前
6.5k
123
评论

Spark 提交任务源码解析 (一)

最令人头秃的就是看源码环境本次使用的spark版本是 3.0.0 1.这是我们提交任务的脚本 2.咱们看下 spark-submit 脚本代码

5年前
7.1k
112
1

Spark 提交任务源码解析 (一)

Flume 大厂面试宝典

FLume组成部分 1. taildir source 断点续传、多目录 Flume Apache1.7 CDH1.6 版本产生的没有断点续传功能时怎么做的？自定义 taildir挂了怎么办？

5年前
6.2k
112
评论