首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Spark相关
小段DSH12138
创建于2021-07-10
订阅专栏
一些Spark笔记
等 1 人订阅
共12篇文章
创建于2021-07-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark踩坑vlog——使用外部存储减轻join时数据负担
背景 此次需要将10张表[A、B、C、D、E、F、G、H、I、J]的数据union与表∂中的一个字段进行join,以达到筛选数据的目的;其中表A的数据量约为320亿,其余9个表各自数据
Spark踩坑vlog——join时shuffle的大坑
业务背景 项目中将两个表进行join,一个大表,一个小表,在平时200 executor-core * 20G executor-memory的资源下跑的挺好的,随着业务数据的增加,有一天,这
Spark流处理中的广播变量
背景 前段时间做的是一个流式项目里,场景为:对于流式数据,使用过滤规则进行实时过滤并产出结果数据。流式数据为源源不断的IP,筛选出在合格IP集合中的数据,传输到下游消息中间件中。 技术
Protobuf结合Spark Structured Streaming使用
背景 在项目开发中对流式数据使用Spark Structured Streaming进行处理,处理流程为:消息中间件(source) -> Spark Structured Streaming
Spark踩坑vlog-推测执行spark.speculation
踩坑背景 流程如下所示: 1.使用SparkSQL获取到了一个DataFrame; 2.然后map这个DataFrame,调用GET接口,获得了IDs作为一个新的DatdaFrame; 3.最后再ma
Spark[四]——Spark并行度
Spark[四]——Spark并行度 Spark并行度指在Spark作业中,各个Stage中task的数量,也就代表了Spark作业在各个阶段的并行度。 合理设置并行度可以从以下几个方
Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other]
Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other] 由于Driver的内存管理较
Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task]
Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task] 一、Application 就是用户编写的Spark应用程序,提交到Sp
Spark[一]——Spark的进程们[Driver、Master、Worker、Executor]
Spark[一]——Spark的进程们[Driver、Master、Worker、Executor] 一、背景知识 1.进程 进程是一个具有一定独立功能的程序在一个数据集上的一次动态执
Spark TroubleShooting——【笔记三】
Spark TroubleShooting——【笔记三】 [课程链接]——https://www.bilibili.com/video/av54322051?p=50 一、控制reduce端缓冲大小避
Spark数据倾斜——【笔记二】
Spark数据倾斜——【笔记二】 [课程链接]——https://www.bilibili.com/video/av54322051?p=50 一、问题描述 Spark中数据倾斜问题主要是指S
Spark性能调优——【笔记一】
Spark性能调优——【笔记一】 [课程链接]——https://www.bilibili.com/video/av54322051?p=50 一、常见性能调优 1.最优资源配置 名称 说明 --nu