首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
stonezhu
掘友等级
👨💻
我的博客:http://zhuleiblog.com
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
4
文章 4
沸点 0
赞
4
返回
|
搜索文章
stonezhu
👨💻
·
4年前
关注
Yarn 的组成及其工作流程
在 Hadoop1 中 MapReduce 框架即负责集群的资源调度,还负责 MapReduce 程序的运行。由于这种架构资源调度和计算高度耦合,导致了一个 Hadoop ...
赞
评论
分享
stonezhu
👨💻
·
4年前
关注
从 MapReduce 的运行机制看它为什么比 Spark 慢
在 Hadoop1 中,MapReduce 计算框架即负责集群资源的调度,还负责 MapReduce 程序的运行。 1,大数据应用进程。这是用户启动的 MapReduce ...
3
评论
分享
stonezhu
👨💻
·
4年前
关注
ShuffleManager 原理
在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。 在 Spark 1.2 以前,默认的 shuffle 计...
赞
1
分享
stonezhu
👨💻
·
4年前
关注
Spark 解决数据倾斜的几种常用方法
数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spa...
3
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 中一些常见的 troubleshooting
记录一些常见的 Spark 作业里的 troubleshooting。 在 shuffle 过程中,reduce 端在拉取 map 端的数据时,每个 task 会有自己的 ...
1
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 的 Yarn-cluster 模式和 Yarn-client 模式
Spark 支持 Yarn 集群的部署模式,在 Spark On Yarn 模式下,每个 Spark 的 Executor 作为一个 Yarn container 在运行,...
赞
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 性能优化:代码中常用的几个调整点
前面三篇文章的三种优化方式调整到位之后会让整个 Spark 作业执行速度有非常明显的提升。 除此之外我们还有很多其它性能优化的手段,但在和前面三种方式比较,正常情况下提升没...
赞
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 性能优化:重构 RDD 及 RDD 持久化
1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。 这样就造成了重复计算。 2,在要复用 RDD ...
赞
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 性能优化:调节并行度
并行度:Spark 作业中,会根据 action 操作划分成多个 job,每个 job 中会根据 shuffle 划分成多个 stage,每个 stage 会分配多个 ta...
1
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 性能优化:资源分配
性能调优的王道是分配更多的资源,当目前资源够用的情况下,分配的资源越充分,在性能和速度上的提升越明显。当资源无法分配更多时候才会去考虑后续的一些调优手段。 **第一种,Sp...
赞
评论
分享
stonezhu
👨💻
·
4年前
关注
什么是 RDD ?
Spark 中最基本的数据抽象是 RDD。 RDD:弹性分布式数据集 (Resilient Distributed DataSet)。 这三个特性分别为:分区,不可变,并行...
3
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 中 File,Block,Split,Task,Partition,RDD概念的理解
1,在HDFS中会以Block为单位进行存储很多的File,也就是说每个File可能会被拆分成多个Block存储在HDFS上;2,当Spark读取HDFS上的文件作为输入时...
1
评论
分享
stonezhu
👨💻
·
4年前
关注
Spark 中几个 join 算子
这几种 join 算子和 sql 中的 join 类似,join 相当于内连接,fullOuterJoin 相当于全连接,leftOuterJoin 相当于左连接,righ...
赞
评论
分享
stonezhu
👨💻
·
4年前
关注
.gitignore 规则不生效
问题:配置了 .gitignore 文件,但在 git add 的时候没有忽略掉。...
8
评论
分享
stonezhu
👨💻
·
5年前
关注
AS中几个Gradle配置的作用
1,Gradle:是一个基于 Apache Ant 和 Apache Maven 概念的项目 自动化建构 工具。它使用一种基于 Groovy 的特定领域语言 来声明项目设置...
赞
评论
分享
stonezhu
👨💻
·
5年前
关注
运行环境jre版本和jar包编译版本不一致导致:Unsupported major.minor version 52.0
根据报错 log 可以断定的是由于我本地编译打包所使用的 jdk 版本和 linux 集群的 jre 版本不一致导致的。stanford parser 和 jdk 版本对应...
赞
评论
分享
stonezhu
👨💻
·
5年前
关注
列式存储
最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是...
2
评论
分享
stonezhu
👨💻
·
5年前
关注
小程序路由wx.reLaunch(Object object)跳转问题
我换用了wx.redirectTo(Object object),只销毁当前页面,交互上也能接受。...
1
3
分享
个人成就
文章被点赞
203
文章被阅读
102,950
掘力值
2,250
关注了
28
关注者
384
收藏集
0
关注标签
8
加入于
2018-06-16