Hive干货合集

Hive干货合集

Hive干货合集

Hive干货合集

暂无订阅共13篇文章创建于2025-09-15

Hive高阶分析函数GROUPINGSETS,CUBE, ROLLUP, collect_set, sort_array, parse_url

更多干货抢先看：大数据干货合集 GROUPINGSETS 示例：实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达。

6月前
150
点赞
评论

Hive经典面试题之连续登录、行转列和列转行

在日常工作进行数据的ETL或者面试时，经常遇到类似的问题，比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题，思路基本都是

6月前
75
点赞
评论

Hive常用性能优化方法实践全面总结

作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过

7月前
202
点赞
评论

Hive的严格模式和非严格模式

**更多干货抢先看：**[大数据干货合集](https://mp.weixin.qq.com/s/e

7月前
94
点赞
评论

Hive的数据类型、内部表和外部表

**更多干货抢先看：**[大数据干货合集](https://mp.weixin.qq.com/s/e

7月前
104
点赞
评论

Hive的架构设计和建表语义

**更多干货抢先看：**[大数据干货合集](https://mp.weixin.qq.com/s/e

7月前
132
点赞
评论

Hive建表时开启事务机制导致insert失败: This command is not allowed on an ACID table.. with a n

更多干货抢先看：大数据干货合集建表语句：执行insert..values操作：出现异常：原因： Hive建表语句指定tblproperties('transactional'='true')，

8月前
75
点赞
评论

Hive数据导入HBase引起数据膨胀引发的思考

更多干货抢先看：大数据技术干货合集最近朋友公司在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几

8月前
66
点赞
评论

Hive Join优化

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化：1.只支持等值连接2.底层会将写的HQL语句转换为MapReduce，

9月前
92
点赞
评论

Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供一种HQL语言进行查询，具有扩展性好、延展性好、高容错等特点，多应用于离线数仓建设。 1.

9月前
122
点赞
评论

Hive数据导入HBase引起数据膨胀引发的思考

在实际生产环境，通常将计算和存储进行分离，保证集群规模水平可扩展，易于提高整体的吞吐。通过单机性能优化和集群的扩容，确保业务大幅增长时，存储不能没有成为系统的瓶颈当然，除了上述原因，还有很多涉及底层的原理环节和实际的业务场景需求，这就要求我们对HBase有足够的了解。

5年前
327
点赞
评论

Hive建表时开启事务机制导致insert失败

Hive建表语句指定tblproperties('transactional'='true')，则执行插入操作时，不能直接使用insert..values语句，原因是开启了事务机制。建议使用insert..select方式。

6年前
282
点赞
评论

大数据调优 | Hive Join优化

jvm重用。可在hadoop的mapred-site.xml中设置jvm被重用的次数，参数mapred.job.reuse.jvm.num.tasks 4.尽量使用left semi join 替代in、not in、exists。 5.当多个表进行查询时，从左到右表的大小顺序…

5年前
446
1
评论