首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
小刘新鲜事儿
掘友等级
学生
|
无
无
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
24
文章 24
沸点 0
赞
24
返回
|
搜索文章
小刘新鲜事儿
学生 @无
·
2年前
关注
Flink增量聚合函数和全窗口聚合函数
.reduce() .aggregate() .apply() .process() ReduceFunction<T> ① 输入,计算,输出 数据类型都相同 Aggreg...
0
评论
分享
小刘新鲜事儿
学生 @无
·
2年前
关注
Flink提交模式及提交流程
1. 部署模式 1.1 会话模式 先启动一个集群,并保持会话 -> 在客户端执行应用程序 -> 在这个会话中通过客户端提交作业 集群启动时所有资源都已经确定,提交的作业会相...
0
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
MapReduce的Shuffle 和 Spark的Shuffle
面试题 面试题面试题 面试题面试题 面试题面试题 面试题面试题 面试题面试题 面试题面试题 面试题面试题 面试题面试题 面试题...
0
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 算子调优(二)
算子调优四:filter与coalesce的配合使用 在Spark任务中我们经常会使用filter算子完成RDD中数据的过滤,在任务初始阶段,...
141
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 算子调优(一)
、算子调优一:mapPartitions 普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的ma...
142
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 JVM调优
对于JVM调优,首先应该明确,full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。 JVM调优一:降低cache操作的内存占...
142
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 Shuffle调优
Shuffle调优一:调节map端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现ma...
144
2
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 解决数据倾斜(三)
数据倾斜解决方案六:使用随机key实现双重聚合 当使用了类似于groupByKey、reduceByKey这样的算子时,可以考虑使用随机key实现双重聚合首先,通过map算...
140
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 解决数据倾斜(二)
数据倾斜解决方案三:过滤导致倾斜的key 如果在Spark作业中允许丢弃某些数据,那么可以考虑将可能导致数据倾斜的key进行过滤,滤除可能导致数据倾斜的key对应的数据,这...
142
1
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 解决数据倾斜(一)
介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduc...
135
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 故障排除(二)
这是我参与更文挑战的第12天,活动详情查看:更文挑战 5 故障排除四:解决算子函数返回NULL导致的问题 在一些算子函数里,需要我们有一个返回值,但是在一些情况下我们不希望...
110
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 常规性能调优 之 并行度调节、广播大变量、Kryo序列化
常规性能调优四:并行度调节 Spark作业中的并行度指各个stage的task的数量。 如果并行度设置不合理而导致并行度过低,会导致资源的极大浪费...
131
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Spark 之 故障排除(一)
故障排除一:控制reduce端缓冲大小以避免OOM 在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点...
123
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
接口和抽象类
- 收录Java面试题 - 互联网求职人必备 - 日积月累 - 我们都会拿到满意的offer - 若文章有误,请联系小编,会第一时间更正...
0
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
静态变量和实例变量的区别
收录Java面试题,不定期更新,程序员求职必备,作者是一个小白,如果文章有错误,请纠正,一起进步,共同成长...
0
评论
分享
小刘新鲜事儿
赞了这篇文章
摸鱼专家
高级摸鱼工程师
·
4年前
关注
Flink 大厂面试题
简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能...
205
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
Resource Manager | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第10天 这是我参与「第四届青训营 」笔记创作活动的第10天...
0
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
YARN任务运行生命周期核心流程 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第9天 这是我参与「第四届青训营 」笔记创作活动的第9天...
1
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
Kafka | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第8天 这是我参与「第四届青训营 」笔记创作活动的第8天...
1
评论
分享
小刘新鲜事儿
学生 @无
·
3年前
关注
端到端Exactly Once语义 | 青训营笔记
这是我参与「第四届青训营 」笔记创作活动的第7天 这是我参与「第四届青训营 」笔记创作活动的第7天...
1
评论
分享
下一页
个人成就
文章被点赞
13
文章被阅读
4,347
掘力值
200
关注了
0
关注者
0
收藏集
4
关注标签
9
加入于
2022-07-01