首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
丰泽
掘友等级
小程序员
|
大大大公司
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
16
文章 16
沸点 0
赞
16
返回
|
搜索文章
最新
热门
SparkSQL:使用反射、编程方式将RDD转换为DataFrame
为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。 一、Spark SQL支持两种方式来将R…
Spark SQL and DataFrame
Spark SQL是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。Spark SQL最重要的功能之一,就是从Hive中查询数据。 DataFrame,可以理解为是,…
Spark性能优化:Shuffle性能优化
newSparkConf().set("spark.shuffle.consolidateFiles","true")spark.shuffle.consolidateFiles:是否开启shuffl
Spark性能优化:数据本地化优化
1. 数据本地化背景 数据本地化对于Spark Job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的,那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度要…
Spark性能优化:提高并行度、使用reduceByKey
实际上Spark集群的资源并不一定会被充分利用到,所以要尽量设置合理的并行度,来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度,依据其大小,比如HDFS,就会给每一个block创建一个partition,也依据…
Spark性能优化:java虚拟机垃圾回收调优
Java堆空间被划分成了两块空间,一个是年轻代,一个是老年代。年轻代放的是短时间存活的对象,老年代放的是长时间存活的对象。年轻代又被划分了三块空间,Eden、Survivor1、Survivor2。 首先,Eden区域和Survivor1区域用于存放对象,Survivor2区域…
Spark性能优化:对RDD持久化或CheckPoint操作
如果程序中,对某一个RDD,基于它进行了多次transformation或者action操作。那么就非常有必要对其进行持久化操作,以避免对一个RDD反复进行计算。 此外,如果要保证在RDD的持久化数据可能丢失的情况下,还要保证高性能,那么可以对RDD进行Checkpoint操作。
SpringBoot 使用Swagger2打造在线接口文档
详情:https://www.jianshu.com/p/7e543f0f0bd8项目例子:一、依赖二、结构三、代码示例
Spark性能优化:优化数据结构
1、优先使用数组以及字符串,而不是集合类。也就是说,优先用array,而不是ArrayList、LinkedList、HashMap等集合。 比如,有个List list = new ArrayList(),将其替换为int[] arr = new int[]。这样的话,arr…
Spark性能优化:高性能序列化类库
在任何分布式系统中,序列化都是扮演着一个重要的角色的。如果使用的序列化技术,在执行序列化操作的时候很慢,或者是序列化后的数据还是很大,那么会让分布式应用程序的性能下降很多。所以,进行Spark性能优化的第一步,就是进行序列化的性能优化。 Spark自身默认就会在一些地方对数据进…
下一页
个人成就
文章被点赞
8
文章被阅读
76,119
掘力值
1,542
关注了
12
关注者
8
收藏集
0
关注标签
17
加入于
2018-05-05