hive及spark - 用户986628160759的收藏集 - 掘金

hive及spark

用户986628160759

更多收藏集

4篇文章 · 0订阅

Spark（十二）Spark Core 调优之数据倾斜调优

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个tas...

云祁
4年前
237
点赞
评论

Hive千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个

五分钟学大数据
4年前
2.9k
7
评论

大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？

1. hadoop 它是一个分布式计算+分布式文件系统，前者其实就是 MapReduce，后者是 HDFS 。后者可以独立运行，前者可以选择性使用，也可以不使用 2. hive 通俗的说是一个数据仓库，仓库中的数据是被hdfs管理的数据文件，它支持类似sql语句的功能，你可以通…

RunFromHere
7年前
12k
36
1

实战 | Hive 数据倾斜问题定位排查及解决

Hive 数据倾斜怎么发现，怎么定位，怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措

五分钟学大数据
4年前
1.4k
7
1

实战 | Hive 数据倾斜问题定位排查及解决