Spark - Mark22的收藏集 - 掘金

Spark

更多收藏集

3篇文章 · 0订阅

万字详解 Spark 数据倾斜及解决方案

本文目录：一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾

五分钟学大数据
4年前
1.5k
4
评论

Spark SQL小文件问题在OPPO的解决方案

Spark SQL小文件是指文件大小显著小于hdfs block块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈，对任务的稳定和集群的维护会带来极大的挑战。然而在我们将离线调度任务逐步从Hive迁移到Spark的过程中，由于Spark本身并不支持小文件合并功能…

安第斯智能云
5年前
6.3k
6
3

从源码看Spark读取Hive表数据小文件和分块的问题

摘要: 使用Spark进行数据分析和计算早已成趋势，你是否关注过读取一张Hive表时Task数为什么是那么多呢？它跟什么有关系呢？最近刚好碰到这个问题，而之前对此有些模糊，所以做了些整理，希望大家拍砖探讨

开源中国
8年前
4.4k
3
评论