\
目录(?)[-]
- 何时使用
- 原理
- 代码说明
- 完整代码
将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-side-join。
如果其中有张表较小的话,我们则可以自己实现在 map 端实现数据关联,跳过大量数据进行 shuffle 的过程,运行时间得到大量缩短,根据不同数据可能会有几倍到数十倍的性能提升。
下文将会以一个 demo 进行说明。
何时使用
在海量数据中匹配少量特定数据
原理
以前写过一篇关于spark-sql中利用broadcast join进行优化的文章,原理与那篇文章相同,这里重新画了图。
reduce-side-join 的缺陷在于会将key相同的数据发送到同一个partition中进行运算,大数据集的传输需要长时间的IO,同时任务并发度收到限制,还可能造成数据倾斜。
reduce-side-join 运行图如下
map-side-join 运行图如下
代码说明
数据1(个别人口信息):
身份证 姓名 ...
110 lsw
222 yyy
数据2(全国学生信息):
身份证 学校名称 学号 ...
110 s1 211
111 s2 222
112 s3 233
113 s2 244
期望得到的数据 :
身份证 姓名 学校名称
110 lsw s1
将少量的数据转化为Map进行广播,广播会将此 Map 发送到每个节点中,如果不进行广播,每个task执行时都会去获取该Map数据,造成了性能浪费。
val people_info = sc.parallelize(Array(("110","lsw"),("222","yyy"))).collectAsMap()
val people_bc = sc.broadcast(people_info)
对大数据进行遍历,使用mapPartition而不是map,因为mapPartition是在每个partition中进行操作,因此可以减少遍历时新建broadCastMap.value对象的空间消耗,同时匹配不到的数据也不会返回()。
val res = student_all.mapPartitions(iter =>{
val stuMap = people_bc.value
val arrayBuffer = ArrayBuffer[(String,String,String)]()
iter.foreach{case (idCard,school,sno) =>{
if(stuMap.contains(idCard)){
arrayBuffer.+= ((idCard, stuMap.getOrElse(idCard,""),school))
}
}}
arrayBuffer.iterator
})
也可以使用 for 的守卫机制来实现上述代码
val res1 = student_all.mapPartitions(iter => {
val stuMap = people_bc.value
for{
(idCard, school, sno) <- iter
if(stuMap.contains(idCard))
} yield (idCard, stuMap.getOrElse(idCard,""),school)
})
完整代码
<code class="hljs scala has-numbering" style="display: block; padding: 0px; color: inherit; box-sizing: border-box; font-family: 'Source Code Pro', monospace;font-size:undefined; white-space: pre; border-radius: 0px; word-wrap: normal; background: transparent;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> org.apache.spark.{SparkContext, SparkConf}
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">import</span> scala.collection.mutable.ArrayBuffer
<span class="hljs-class" style="box-sizing: border-box;"><span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">object</span> <span class="hljs-title" style="box-sizing: border-box; color: rgb(102, 0, 102);">joinTest</span> <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">extends</span> <span class="hljs-title" style="box-sizing: border-box; color: rgb(102, 0, 102);">App</span>{</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> conf = <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> SparkConf().setMaster(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"local[2]"</span>).setAppName(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"test"</span>)
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> sc = <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">new</span> SparkContext(conf)
<span class="hljs-javadoc" style="color: rgb(136, 0, 0); box-sizing: border-box;">/**
* map-side-join
* 取出小表中出现的用户与大表关联后取出所需要的信息
* */</span>
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//部分人信息(身份证,姓名)</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> people_info = sc.parallelize(Array((<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"110"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"lsw"</span>),(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"222"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"yyy"</span>))).collectAsMap()
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//全国的学生详细信息(身份证,学校名称,学号...)</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> student_all = sc.parallelize(Array((<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"110"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"s1"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"211"</span>),
(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"111"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"s2"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"222"</span>),
(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"112"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"s3"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"233"</span>),
(<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"113"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"s2"</span>,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">"244"</span>)))
<span class="hljs-comment" style="color: rgb(136, 0, 0); box-sizing: border-box;">//将需要关联的小表进行关联</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> people_bc = sc.broadcast(people_info)
<span class="hljs-javadoc" style="color: rgb(136, 0, 0); box-sizing: border-box;">/**
* 使用mapPartition而不是用map,减少创建broadCastMap.value的空间消耗
* 同时匹配不到的数据也不需要返回()
* */</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> res = student_all.mapPartitions(iter =>{
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> stuMap = people_bc.value
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> arrayBuffer = ArrayBuffer[(String,String,String)]()
iter.foreach{<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">case</span> (idCard,school,sno) =>{
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span>(stuMap.contains(idCard)){
arrayBuffer.+= ((idCard, stuMap.getOrElse(idCard,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">""</span>),school))
}
}}
arrayBuffer.iterator
})
<span class="hljs-javadoc" style="color: rgb(136, 0, 0); box-sizing: border-box;">/**
* 使用另一种方式实现
* 使用for的守卫
* */</span>
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> res1 = student_all.mapPartitions(iter => {
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">val</span> stuMap = people_bc.value
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">for</span>{
(idCard, school, sno) <- iter
<span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">if</span>(stuMap.contains(idCard))
} <span class="hljs-keyword" style="color: rgb(0, 0, 136); box-sizing: border-box;">yield</span> (idCard, stuMap.getOrElse(idCard,<span class="hljs-string" style="color: rgb(0, 136, 0); box-sizing: border-box;">""</span>),school)
})
res.foreach(println)</code>