Hive - 龙猫呤的收藏集 - 掘金

Hive

更多收藏集

11篇文章 · 0订阅

Hive 自定义函数-UDF

为什么要自定义函数常见的自定义函数如何编写UDF 案例自定义函数，根据出生日期求年龄导入依赖编码实现将项目打成jar包上传到HDFS上在Hive中添加jar并创建函数案例演示

大数据菜鸡
4年前
814
点赞
评论

Hive基础与调优

一.Hive架构 1）用户接口：Client CLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive） 2）元数据：M

zhyy
4年前
1.1k
3
评论

小白也能看懂的 Hive 调优

Hive 一个常用的大数据组件，影响它的性能的从来都不是因为数据量过大的问题，而是数据倾斜，冗余，Job 和 IO 过多，MapReduce 分配不合理···等

说出你的愿望吧
4年前
4.1k
58
8

美团酒旅数据治理实践

在数据开发的过程中会引入各种质量、效率、安全等方面的问题，而数据治理就是要不断消除引入的这些问题，保障数据准确、全面和完整，为业务创造价值。

美团技术团队
5年前
3.3k
29
3

Hue-hive sql常用函数详解

对用户表app_user_y中的user_id字段进行分组，然后按照create_time进行排序，执行完这个操作后对每一条数据进行顺序标号，从1开始递增，如果标号出现相同值时给不同的序号。返回一个掩码版本的str，显示最后n个未掩码的字符(从Hive 2.1.0开始)。将大…

软件测试微课堂
6年前
5.1k
3
评论

Hive优化实践

对于流行的分布式计算框架（如离线的MapReduce、流计算Storm、迭代内存计算Spark、流式计算Flink），“数据量大”从来都不是问题，因为理论上来说，都可以通过增加并发的节点数来解决。但是如果数据倾斜或者分布不均匀了，那么就会是问题。此时不能简单地通过增加并发节点…

总要回家
5年前
1.2k
4
评论

Flink 1.12.0集成Hive 3.1.2

Hive 目前已经成为了数据仓库生态系统中的核心组件。它不仅仅是一个用于大数据分析和 ETL 的 SQL 引擎，同样也是一个数据管理平台，它可以用来发现，定义和演变数据。而 Flink 是当前最火的流式计算引擎，它可以在无界和有界数据流上进行状态计算。Flink 从 1.9 版…

DataFly
5年前
2.7k
7
5

Hive 与 ElasticSearch 的数据交互

本文将详细介绍利用 ES 与 Hive 直接的数据交互；通过 Hive 外部表的方式，可以快速将 ES 索引数据映射到 Hive 中，使用易于上手的 Hive SQL 实现对数据的进一步加工。 Hive 在 Hadoop 生态系统中扮演着数据仓库的角色，借助 Hive 可以方便…

rochy_he
7年前
8.3k
7
评论

Hive 调优总结，让 Hive 调优想法不再碎片化

通过阅读比较多的Hive调优材料，并根据自己的实践，总结Hive 调优如下，让Hive调优想法不再凌乱、碎片化，而是形成结构。这个链接基于上面的链接做了自己的实践经验总结，纠正了上面那篇文章中一些因为版本太老导致的参数不一致的问题。关于 group by 和 join 更详…

wjz1893
5年前
4.0k
6
2

Hive 系列（六）—— Hive 视图和索引

Hive 中的视图和 RDBMS 中视图的概念一致，都是一组数据的逻辑表示，本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象，没有关联的存储 (Hive 3.0.0 引入的物化视图除外)，当查询引用视图时，Hive 可以将视图的定义与查询结合起来，例如将查询中的…

zed
5年前
554
点赞
评论