驰

赞

2

|

搜索文章

赞了这篇文章

公众号：源码那些事儿

·

6年前

Spark读hive text表之非shuffle方式增大并行度

正常情况下，一个spark task要处理一个partition即128M的数据，因处理过程较耗时而成为任务瓶颈。大的方向是进行任务拆分，增大并行度。结论：测试发现，虽...

2

评论

赞了这篇文章

公众号：源码那些事儿

·

6年前

Spark local模式连接集群hdfs、hive

Spark提供了local、standalone、on yarn等多种运行模式，但为了保持开发环境与实际运行环境的一致性，通常都是在本地编写代码，然后编译并上传jar包到S...

4

5

关注了

加入于

2019-05-14