spark - 挣扎的20届的收藏集 - 掘金

spark

更多收藏集

8篇文章 · 0订阅

Spark的Shuffle总结分析

Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂。在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进…

说出你的愿望吧
6年前
4.6k
51
20

Spark 之解决数据倾斜（一）

介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据

摸鱼专家
4年前
7.2k
135
评论

Spark的shuffle调优—— 两阶段聚合或将reduce join转为map join

这是我参与8月更文挑战的第8天，活动详情查看： [8月更文挑战](https://juejin.cn/post/6987962113788493831 "https://juejin.cn/post/

用户4668938395922
4年前
810
点赞
评论

Spark 之 Shuffle调优

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢

摸鱼专家
4年前
6.3k
144
2

Spark 之 Shuffle调优

Spark的五种JOIN策略解析

JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：参与JOIN的数据集的大小会直接影响Join操作的执行效率。同样，也会影响JO…

大数据技术与数仓
5年前
1.5k
2
评论

用 Spark 处理复杂数据类型（Struct、Array、Map、JSON字符串等）

这种数据结构同C语言的结构体，内部可以包含不同类型的数据。还是用上面的数据，先创建一个包含struct的DataFrame Spark 最强的功能之一就是定义你自己的函数（UDFs），使得你可以通过Scala、Python或者使用外部的库（libraries）来得到你自己需要的…

萧洒的身影
6年前
30k
8
评论

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

10月26日，字节跳动技术沙龙 | 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊，Kyligence 大数据研发工程师-陶加涛，字节跳动存储工程师-徐明敏，阿里云高级技术专家-白宸和大家进行分享交流。以下是字节跳动数据仓库架构负责人-…

字节跳动技术团队
6年前
11k
22
5

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

Spark Streaming任务GC严重的问题排查优化

业务背景业务代码本身是没有致命逻辑错误的，程序可以正常的启动和运行较长一段时间，如一周两周；流计算任务，从kafka读取数据计算后写；没有使用第三方缓存承接中间数据；业务数据量大小中等，没有显

1024点线面
3年前
2.5k
2
评论