首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小段DSH12138
掘友等级
大数据开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
Spark踩坑vlog——使用外部存储减轻join时数据负担
背景 此次需要将10张表[A、B、C、D、E、F、G、H、I、J]的数据union与表∂中的一个字段进行join,以达到筛选数据的目的;其中表A的数据量约为320亿,其余9个表各自数据
Spark踩坑vlog——join时shuffle的大坑
业务背景 项目中将两个表进行join,一个大表,一个小表,在平时200 executor-core * 20G executor-memory的资源下跑的挺好的,随着业务数据的增加,有一天,这
Spark流处理中的广播变量
背景 前段时间做的是一个流式项目里,场景为:对于流式数据,使用过滤规则进行实时过滤并产出结果数据。流式数据为源源不断的IP,筛选出在合格IP集合中的数据,传输到下游消息中间件中。 技术
Protobuf结合Spark Structured Streaming使用
背景 在项目开发中对流式数据使用Spark Structured Streaming进行处理,处理流程为:消息中间件(source) -> Spark Structured Streaming
Spark踩坑vlog-推测执行spark.speculation
踩坑背景 流程如下所示: 1.使用SparkSQL获取到了一个DataFrame; 2.然后map这个DataFrame,调用GET接口,获得了IDs作为一个新的DatdaFrame; 3.最后再ma
Hive表优化
Hive优化 本人太懒,好不容易画了个图表达,但是摘要需要50个字,就凑一凑,就凑一凑,就凑一凑,凑够了~
Flink-KeyedProcessFuntion中ValueState<Boolean>与Boolean的区别
背景 在项目开发中,遇到如下场景:将数据按照业务逻辑分组,接下来的所有计算以组为单位;当第一条数据传入时,以当前数据的时间对应天的结束时间为定时触发时间,做定时。下一次的定时与上一次定时的时间间隔为8
Spark[四]——Spark并行度
Spark[四]——Spark并行度 Spark并行度指在Spark作业中,各个Stage中task的数量,也就代表了Spark作业在各个阶段的并行度。 合理设置并行度可以从以下几个方
Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other]
Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other] 由于Driver的内存管理较
Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task]
Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task] 一、Application 就是用户编写的Spark应用程序,提交到Sp
下一页
个人成就
文章被点赞
9
文章被阅读
15,188
掘力值
280
关注了
0
关注者
7
收藏集
0
关注标签
0
加入于
2021-07-10