spark rdd实战—分区器(Partitioner)的理解和使用 用户709930945419 2022-12-27 70 阅读1分钟 所谓“分区”,就是对相同的key执行hash算法,从而将相同key都写入同一个磁盘文件中,而每一个磁盘文件都只属于reduce端的stage的一个task。在将数据写入磁盘之前,会先将数据写入内存缓冲