首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
摸鱼专家
创建于2021-05-26
订阅专栏
大数据相关文章
等 74 人订阅
共32篇文章
创建于2021-05-26
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
摸鱼专家
1年前
后端
Flink 大厂面试题
简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽
1.2w
204
评论
摸鱼专家
1年前
后端
Spark 大厂面试题
Kryo序列化 Kryo序列化比Java序列化更快更紧凑,但Spark默认的序列化是Java序列化并不是Spark序列化,因为Spark并不支持所有序列化类型,而且每次使用都必须进行注册。注册只针对于
9817
180
评论
摸鱼专家
1年前
后端
Spark 大厂面试题
Spark解决什么问题 二 Spark为什么会有自己的资源调度器 三 Spark运行模式 四 Spark常用端口号 五 Spark提交作业参数 六 Spark的transformation算子
1.1w
201
评论
摸鱼专家
1年前
大数据
Hadoop 大厂面试题
这是我参与更文挑战的第27天,活动详情查看:更文挑战 1 Shuffle优化 Map阶段 增大环形缓冲区大小。由100m扩大到200m 增大环形缓冲区溢写的比例。由80%扩大到90% 减少对溢写文件的
6726
121
评论
摸鱼专家
1年前
大数据
Hadoop 大厂面试题
Hadoop常用端口号 hadoop2.x Hadoop3.x 访问HDFS端口 50070 9870 访问MR执行情况端口 8088 8088 ,Hadoop配置文件以及简单的Hadoop集群搭建
6466
144
评论
摸鱼专家
1年前
大数据
Hive 大厂面试题
Hive的架构 Hive元数据默认存储在derby数据库,不支持多客户端访问,所以将元数据存储在MySQl,支持多客户端访问。 2 Hive和e和数据库比较,Hive 和数据库除了拥有类似的查询语言,
6890
132
评论
摸鱼专家
1年前
大数据
Spark Streaming 大厂面试题
Spark Streaming第一次运行不丢失数据 kafka参数 auto.offset.reset 参数设置成earliest 从最初始偏移量开始消费数据
6550
123
1
摸鱼专家
1年前
Spark
后端
Spark 之 算子调优(二)
算子调优四:filter与coalesce的配合使用 在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤,在任务初始阶段,
6069
141
评论
摸鱼专家
1年前
Spark
后端
Spark 之 算子调优(一)
、算子调优一:mapPartitions 普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子,假设一个partit
6879
142
评论
摸鱼专家
1年前
Spark
后端
Spark 之 JVM调优
对于JVM调优,首先应该明确,full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。 JVM调优一:降低cache操作的内存占比 1. 静态内存管理机
6789
142
评论
摸鱼专家
1年前
Spark
Spark 之 Shuffle调优
Shuffle调优一:调节map端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢
5961
144
2
摸鱼专家
1年前
Spark
后端
Spark 常规性能调优 之 并行度调节、广播大变量、Kryo序列化
常规性能调优四:并行度调节 Spark作业中的并行度指各个stage的task的数量。 如果并行度设置不合理而导致并行度过低,会导致资源的极大浪费
6313
131
评论
摸鱼专家
1年前
Spark
后端
Spark 常规性能调优 之 最优资源配置
常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策
6576
115
2
摸鱼专家
1年前
Spark
后端
Spark 之 解决数据倾斜(三)
数据倾斜解决方案六:使用随机key实现双重聚合 当使用了类似于groupByKey、reduceByKey这样的算子时,可以考虑使用随机key实现双重聚合首先,通过map算子给每个数据的key添加随机
6661
140
评论
摸鱼专家
1年前
Spark
后端
大数据
Spark 之 解决数据倾斜(二)
数据倾斜解决方案三:过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据,那么可以考虑将可能导致数据倾斜的key进行过滤,滤除可能导致数据倾斜的key对应的数据,这样,在Spark作业中就不会
6576
141
1
摸鱼专家
1年前
Spark
后端
Spark 之 解决数据倾斜(一)
介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据
6660
134
评论
摸鱼专家
1年前
后端
Spark 之 故障排除(二)
这是我参与更文挑战的第12天,活动详情查看:更文挑战 5 故障排除四:解决算子函数返回NULL导致的问题 在一些算子函数里,需要我们有一个返回值,但是在一些情况下我们不希望有返回值,此时我们如果直接返
6402
109
评论
摸鱼专家
1年前
Spark
后端
Spark 之 故障排除(一)
故障排除一:控制reduce端缓冲大小以避免OOM 在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task
6062
122
评论
摸鱼专家
1年前
Spark
后端
Spark 提交任务 源码解析 (一)
最令人头秃的就是看源码 环境 本次使用的spark版本是 3.0.0 1.这是我们提交任务的脚本 2.咱们看下 spark-submit 脚本代码
6498
110
1
摸鱼专家
1年前
Apache Flume
Flume 大厂面试宝典
FLume组成部分 1. taildir source 断点续传、多目录 Flume Apache1.7 CDH1.6 版本产生的 没有断点续传功能时怎么做的? 自定义 taildir挂了怎么办?
5909
112
评论
下一页