#沸你不可#
【我们都是知识分享官 1.21】
1. 掘金摸鱼组队员:@翊君;@哀家在冷宫学习
2. 大数据小知识
sparkJavaApi
1、join
将一组数据转化为RDD后,分别创造出两个PairRDD,然后再对两个PairRDD进行归约(即合并相同Key对应的Value)
2、cogroup
有两个元组Tuple的集合A与B,先对A组集合中key相同的value进行聚合,然后对B组集合中key相同的value进行聚合,之后对A组与B组进行"join"操作;
3、GroupByKey
groupByKey也是对每个key进行操作,但只生成一个sequence,groupByKey()是基于combineByKey()实现的, 只是将 Key 相同的 records 聚合在一起,一个简单的 shuffle 过程就可以完成
展开
评论