驰

赞

2

|

搜索文章

赞

文章( 2 ) 沸点( 0 )

Spark读hive text表之非shuffle方式增大并行度

正常情况下，一个spark task要处理一个partition即128M的数据，因处理过程较耗时而成为任务瓶颈。大的方向是进行任务拆分，增大并行度。结论：测试发现，虽然增大了业务处理的并行度，但shuffle操作的开销比较大，因此整体的耗时没有明显减少。用以实现spar…

源码那些事儿
6年前
2.4k
2
评论

Spark local模式连接集群hdfs、hive

Spark提供了local、standalone、on yarn等多种运行模式，但为了保持开发环境与实际运行环境的一致性，通常都是在本地编写代码，然后编译并上传jar包到Spark集群调试运行。但是面对复杂的处理逻辑，或遇到性能问题要修改代码时，开发人员将不得不多次进行修改、…

源码那些事儿
6年前
3.8k
4
5

加入于

2019-05-14