Spark相关

Spark相关

Spark相关

一些Spark笔记

等 1 人订阅共12篇文章创建于2021-07-10

Spark踩坑vlog——使用外部存储减轻join时数据负担

背景此次需要将10张表[A、B、C、D、E、F、G、H、I、J]的数据union与表∂中的一个字段进行join，以达到筛选数据的目的；其中表A的数据量约为320亿，其余9个表各自数据

4年前
1.0k
1
评论

Spark踩坑vlog——join时shuffle的大坑

业务背景项目中将两个表进行join，一个大表，一个小表，在平时200 executor-core * 20G executor-memory的资源下跑的挺好的，随着业务数据的增加，有一天，这

4年前
1.8k
2
评论

Spark流处理中的广播变量

背景前段时间做的是一个流式项目里，场景为：对于流式数据，使用过滤规则进行实时过滤并产出结果数据。流式数据为源源不断的IP，筛选出在合格IP集合中的数据，传输到下游消息中间件中。技术

4年前
1.2k
1
评论

Protobuf结合Spark Structured Streaming使用

背景在项目开发中对流式数据使用Spark Structured Streaming进行处理，处理流程为：消息中间件(source) -> Spark Structured Streaming

4年前
1.7k
1
评论

Spark踩坑vlog-推测执行spark.speculation

踩坑背景流程如下所示： 1.使用SparkSQL获取到了一个DataFrame； 2.然后map这个DataFrame，调用GET接口，获得了IDs作为一个新的DatdaFrame； 3.最后再ma

4年前
1.4k
1
评论

Spark[四]——Spark并行度

Spark[四]——Spark并行度 Spark并行度指在Spark作业中，各个Stage中task的数量，也就代表了Spark作业在各个阶段的并行度。合理设置并行度可以从以下几个方

4年前
1.9k
点赞
评论

Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other]

Spark[三]——Spark对内存的管理[On-Heap Memory、Off-Heap Memory、Storage、Execution、Other] 由于Driver的内存管理较

4年前
1.1k
点赞
评论

Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task]

Spark[二]——Spark的组件们[Application、Job、Stage、TaskSet、Task] 一、Application 就是用户编写的Spark应用程序，提交到Sp

4年前
843
点赞
评论

Spark[一]——Spark的进程们[Driver、Master、Worker、Executor]

Spark[一]——Spark的进程们[Driver、Master、Worker、Executor] 一、背景知识 1.进程进程是一个具有一定独立功能的程序在一个数据集上的一次动态执

4年前
1.4k
点赞
评论

Spark TroubleShooting——【笔记三】

Spark TroubleShooting——【笔记三】 [课程链接]——https://www.bilibili.com/video/av54322051?p=50 一、控制reduce端缓冲大小避

4年前
400
点赞
评论

Spark数据倾斜——【笔记二】

Spark数据倾斜——【笔记二】 [课程链接]——https://www.bilibili.com/video/av54322051?p=50 一、问题描述 Spark中数据倾斜问题主要是指S

4年前
484
1
评论

Spark性能调优——【笔记一】

Spark性能调优——【笔记一】 [课程链接]——https://www.bilibili.com/video/av54322051?p=50 一、常见性能调优 1.最优资源配置名称说明 --nu

4年前
1.6k
1
评论