首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Hive
订阅
龙猫呤
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
Hive 自定义函数-UDF
为什么要自定义函数 常见的自定义函数 如何编写UDF 案例 自定义函数,根据出生日期求年龄 导入依赖 编码实现 将项目打成jar包 上传到HDFS上 在Hive中添加jar并创建函数 案例演示
Hive基础与调优
一.Hive架构 1)用户接口:Client CLI(command-line interface)、JDBC/ODBC(jdbc 访问 hive)、WEBUI(浏览器访问 hive) 2)元数据:M
小白也能看懂的 Hive 调优
Hive 一个常用的大数据组件,影响它的性能的从来都不是因为数据量过大的问题,而是数据倾斜,冗余,Job 和 IO 过多,MapReduce 分配不合理···等
美团酒旅数据治理实践
在数据开发的过程中会引入各种质量、效率、安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确、全面和完整,为业务创造价值。
Hue-hive sql常用函数详解
对用户表app_user_y中的user_id字段进行分组,然后按照create_time进行排序,执行完这个操作后对每一条数据进行顺序标号,从1开始递增,如果标号出现相同值时给不同的序号。 返回一个掩码版本的str,显示最后n个未掩码的字符(从Hive 2.1.0开始)。将大…
Hive优化实践
对于流行的分布式计算框架(如离线的MapReduce、流计算Storm、迭代内存计算Spark、流式计算Flink),“数据量大”从来都不是问题,因为理论上来说,都可以通过增加并发的节点数来解决。 但是如果数据倾斜或者分布不均匀了,那么就会是问题。此时不能简单地通过增加并发节点…
Flink 1.12.0集成Hive 3.1.2
Hive 目前已经成为了数据仓库生态系统中的核心组件。它不仅仅是一个用于大数据分析和 ETL 的 SQL 引擎,同样也是一个数据管理平台,它可以用来发现,定义和演变数据。而 Flink 是当前最火的流式计算引擎,它可以在无界和有界数据流上进行状态计算。Flink 从 1.9 版…
Hive 与 ElasticSearch 的数据交互
本文将详细介绍利用 ES 与 Hive 直接的数据交互;通过 Hive 外部表的方式,可以快速将 ES 索引数据映射到 Hive 中,使用易于上手的 Hive SQL 实现对数据的进一步加工。 Hive 在 Hadoop 生态系统中扮演着数据仓库的角色,借助 Hive 可以方便…
Hive 调优总结,让 Hive 调优想法不再碎片化
通过阅读比较多的Hive调优材料,并根据自己的实践,总结Hive 调优如下,让Hive调优想法不再凌乱、碎片化,而是形成结构。 这个链接基于上面的链接做了自己的实践经验总结,纠正了上面那篇文章中一些因为版本太老导致的参数不一致的问题。 关于 group by 和 join 更详…
Hive 系列(六)—— Hive 视图和索引
Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的…