首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
挣扎的20届
更多收藏集
微信扫码分享
微信
新浪微博
QQ
8篇文章 · 0订阅
Spark的Shuffle总结分析
Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进…
Spark 之 解决数据倾斜(一)
介绍 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据
Spark的shuffle调优—— 两阶段聚合或将reduce join转为map join
这是我参与8月更文挑战的第8天,活动详情查看: [8月更文挑战](https://juejin.cn/post/6987962113788493831 "https://juejin.cn/post/
Spark 之 Shuffle调优
Shuffle调优一:调节map端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢
Spark的五种JOIN策略解析
JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 参与JOIN的数据集的大小会直接影响Join操作的执行效率。同样,也会影响JO…
用 Spark 处理复杂数据类型(Struct、Array、Map、JSON字符串等)
这种数据结构同C语言的结构体,内部可以包含不同类型的数据。还是用上面的数据,先创建一个包含struct的DataFrame Spark 最强的功能之一就是定义你自己的函数(UDFs),使得你可以通过Scala、Python或者使用外部的库(libraries)来得到你自己需要的…
字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙
10月26日,字节跳动技术沙龙 | 大数据架构专场 在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊,Kyligence 大数据研发工程师-陶加涛,字节跳动存储工程师-徐明敏,阿里云高级技术专家-白宸和大家进行分享交流。 以下是字节跳动数据仓库架构负责人-…
Spark Streaming任务GC严重的问题排查优化
业务背景 业务代码本身是没有致命逻辑错误的,程序可以正常的启动和运行较长一段时间,如一周两周; 流计算任务,从kafka读取数据计算后写; 没有使用第三方缓存承接中间数据; 业务数据量大小中等,没有显