大数据 - wangsy1122的收藏集 - 掘金

大数据

更多收藏集

9篇文章 · 0订阅

Hive - 各种JOIN解析

Part01：准备工作员工表（employees）部门表（departments）注意 employees表中的dept_id = 50在departments表中不存在。

荷藕Hou
6月前
106
点赞
评论

Hive常用性能优化方法实践全面总结

作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过

智海观潮
6月前
178
点赞
评论

一文学完所有的Hive Sql（两万字最全详解）

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产…

五分钟学大数据
5年前
5.1k
28
评论

Hive分区表详细介绍

一、概念简介 Hive 中的表对应为HDFS上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是

Leefs
4年前
11k
8
评论

从0开始学大数据-Hive基础篇

Hive起源于Facebook，是基于 Hadoop HDFS 分布式文件系统的分布式数据仓库架构。它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言（HiveQL）。允许用户进…

dxer0730
6年前
2.5k
14
评论

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

入门Hbase，看这一篇就够了

团队内部要分享HBase的知识，之前研究了一段时间，知识比较零散，这一次就系统化的整理一番，之后在想到Hbase的时候，看着一篇就够了。 Hbase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种分布式存储的数据库，技术上…

AI贺贺
7年前
49k
162
7

hive学习笔记之三：内部表和外部表

### 欢迎访问我的GitHub [https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) 内容：所

程序员欣宸
5年前
880
3
评论

2021年大数据Hive（一）：Hive基本概念

后面更新文章都会列出历史文章目录，帮助大家回顾知识重点。 2021大数据领域优质创作博客，带你从入门到精通，该博客每天更新，逐渐完善大数据各个知识体系的文章，帮助大家更高效学习。Hive是一个构建在Hadoop上的数据仓库框架。最初，Hive是由Facebook开发，后来移交由A...

Lansonli
4年前
2.0k
10
评论