首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
hive
ponylee
创建于2022-08-19
订阅专栏
hive
暂无订阅
共13篇文章
创建于2022-08-19
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hive SQL时间函数及用法
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 Hive SQL时间函数 当前官方提供的日期函数共27个,内容如下: 1. 获取当前系统时间 函数: current_timestamp 返回值:
hive指定格式导出数据和Hive时间函数时区问题
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 hive指定格式导出数据 语法格式 或者 通过 outputformat 指定输出格式 不同格式对应的分隔符如下表: 格式 分隔符 table 表
Hive生成超级日期维度表
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 创建日期维表 生成数据 变更节假日 变更节假日sql 变更节假日脚本 变更节假日脚本(单个) 变更节假日脚本(批量) 变更日期数据 使用日期维表
hive复杂数据类型GenericUDF编写
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 引入依赖 自定义函数 测试 注意:evaluate方法的返回值类型,必须跟initialize校验返回值类型一致。 创建函数 创建临时函数 创建永
hive map数量控制
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 新旧版本map数量获取区别: map数量: 如果对于Hive调优,想通过控制map个数进行调优,首先确定集群是否启动了压缩,且压缩的算法是否直接文
hive小文件调优实践
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 以最详细,生产实例的方式展现hive大量小文件的调优过程,包括: 【hive distribute by分区函数应用调优】 【hive输入端小文件
hive压缩
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 Hadoop压缩数据流程 压缩算法比较 Linux操作系统中常见的压缩格式是bzip2、gzip、lzo、snappy这四种,这四种压缩方法的比较
解决hive元数据库乱码问题
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 有两种方案,方案一可以一次性永久解决乱码问题;如果只针对当前数据库,推荐使用方案二,不会影响其他库。 解决方案一: 1、查看字符集: 2、设置hi
hive窗口之分组范围内计算
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 需求 需求描述 注意: 对于同一id在同一时间点只有一次修改 需求分析 需要分组排序 需要分组之内列转行集合 根据新批次号、分组排序结果、原批次号
hive窗口函数使用详解
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 ntile 用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值。 经常用来取前30% 带有百分之多少比例的记录什么的 注意: 实例: co
hive调优
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 hive调优的根本思想: 尽早尽量过滤数据,减少每个阶段的数据量 减少job数 解决数据倾斜问题 1、尽早尽量过滤数据,减少每个阶段的数据量 2、
多维分析
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 Hive常见的多维度聚合函数有: With Cube:任意维度聚合 Grouping Sets:指定维度聚合 With Rollup:GROUP
hive优化参数配置
本文已参与「新人创作礼」活动,一起开启掘金创作之路。 配置参数说明 配置示例 demo1: demo2: