首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
stonezhu
掘友等级
👨💻
我的博客:http://zhuleiblog.com
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
4
文章 4
沸点 0
赞
4
返回
|
搜索文章
最新
热门
Yarn 的组成及其工作流程
在 Hadoop1 中 MapReduce 框架即负责集群的资源调度,还负责 MapReduce 程序的运行。由于这种架构资源调度和计算高度耦合,导致了一个 Hadoop 集群中只能跑 MapReduce 计算任务,无法跑其它的计算任务,维护成本很高。 在后面的 Hadoop2…
从 MapReduce 的运行机制看它为什么比 Spark 慢
在 Hadoop1 中,MapReduce 计算框架即负责集群资源的调度,还负责 MapReduce 程序的运行。 1,大数据应用进程。这是用户启动的 MapReduce 程序进程,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群的…
ShuffleManager 原理
在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。 在 Spark 1.2 以前,默认的 shuffle 计算引擎是 HashShuffleManager。该 ShuffleMananger 有一个非常严重的弊端,…
Spark 解决数据倾斜的几种常用方法
数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。 一个 Spark 作业,会根据其内部的 Action 操作划分成多个 job,每个 j…
Spark 中一些常见的 troubleshooting
记录一些常见的 Spark 作业里的 troubleshooting。 在 shuffle 过程中,reduce 端在拉取 map 端的数据时,每个 task 会有自己的 缓冲区用来存放每次拉取的数据,这个缓冲区默认是 48M。 如果 map 端产生的数据量非常大,并且 map…
Spark 的 Yarn-cluster 模式和 Yarn-client 模式
Spark 支持 Yarn 集群的部署模式,在 Spark On Yarn 模式下,每个 Spark 的 Executor 作为一个 Yarn container 在运行,同事支持多个任务在同一个 container 中运行。 Yarn 的 Application Master…
Spark 性能优化:代码中常用的几个调整点
前面三篇文章的三种优化方式调整到位之后会让整个 Spark 作业执行速度有非常明显的提升。 除此之外我们还有很多其它性能优化的手段,但在和前面三种方式比较,正常情况下提升没有那么大。 在 task 执行算子函数运算的时候,如果要用到外部变量,这种时候需要使用广播变量。因为,如果…
Spark 性能优化:重构 RDD 及 RDD 持久化
1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。 这样就造成了重复计算。 2,在要复用 RDD 的时候一定要对复用的那个 RDD 做持久化操作。
Spark 性能优化:调节并行度
并行度:Spark 作业中,会根据 action 操作划分成多个 job,每个 job 中会根据 shuffle 划分成多个 stage,每个 stage 会分配多个 task 去执行,各个 stage 划分的 task 数量就代表了 Spark 作业在该 stage 的并行度…
Spark 性能优化:资源分配
性能调优的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。 **第一种,Spark Standalone 模式。**公司搭建的 Spark 集群上,有多少台机器,每台机器有多少的内存…
下一页
个人成就
文章被点赞
203
文章被阅读
117,175
掘力值
2,290
关注了
28
关注者
385
收藏集
0
关注标签
8
加入于
2018-06-16