用户74303596879

赞

7

|

搜索文章

赞

文章( 7 ) 沸点( 0 )

Spark入门（二）--如何用Idea运行我们的Spark项目

用IDEA搭建我们的环境有很多好处，其中最大的好处，就是我们甚至可以在工程当中直接运行、调试我们的代码，在控制台输出我们的结果。或者可以逐行跟踪代码，了解spark运行的机制。因此我们选择了idea，当然Idea不是首选，当然也可以用其他工具。因为我们的Spark程序用scal…

诗昭
6年前
3.1k
6
1

Spark入门（一）--用Spark-Shell初尝Spark滋味

spark-shell运行过程从上层来看，每一个spark应用都是由驱动器程序发起集群上的并行操作，在spark-shell中驱动器程序就是spark-shell本身。驱动器通过SparkContext对象来访问spark。事实上在shell启动时就创建了一个SparkCont…

诗昭
6年前
4.5k
5
2

Spark入门（七）--Spark的intersection、subtract、union和distinct

intersection顾名思义，他是指交叉的。当两个RDD进行intersection后，将保留两者共有的。因此对于RDD1.intersection(RDD2) 和RDD2.intersection(RDD1) 。应该是一致的。 subtract则和intersection…

诗昭
6年前
3.4k
4
1

Spark入门（六）--Spark的combineByKey、sortBykey

combineByKey的强大之处，在于提供了三个函数操作来操作一个函数。第一个函数，是对元数据处理，从而获得一个键值对。第二个函数，是对键值键值对进行一对一的操作，即一个键值对对应一个输出，且这里是根据key进行整合。第三个函数是对key相同的键值对进行操作，有点像reduc…

诗昭
6年前
1.9k
5
评论

Spark入门（五）--Spark的reduce和reduceByKey

reduce和reduceByKey是spark中使用地非常频繁的，在字数统计中，可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢？reduce处理数据时有着一对一的特性，而reduceByKey则有着多对一的特性。比如reduce…

诗昭
6年前
6.8k
6
1

Spark入门（四）--Spark的map、flatMap、mapToPair

在上一节Spark经典的单词统计中，了解了几个RDD操作，包括flatMap，map，reduceByKey，以及后面简化的方案，countByValue。那么这一节将介绍更多常用的RDD操作，并且为每一种RDD我们分解来看其运作的情况。 flatMap，有着一对多的表现，输入…

诗昭
6年前
7.8k
14
评论

Spark入门（三）--Spark经典的单词统计

既然要统计单词我们就需要一个包含一定数量的文本，我们这里选择了英文原著《GoneWithTheWind》（《飘》）的文本来做一个数据统计，看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。首先我们要读取…

诗昭
6年前
5.8k
6
评论

加入于

2024-05-10