Hive

Hive

Hive

Hive

等 2 人订阅共27篇文章创建于2022-04-15

Hive问题记录：使用split等函数程序很慢的情况分析

一段很简单的代码，使用比如create table mobdi_test.aaa as select split(path,'\/') from mobdi_test.path_text_nocomp;程序进度季度慢，2.尝试了各种方法，参数优化，udf重构等。后来才找到了原因...

4年前
451
2
评论

Hive内嵌字符处理函数：get_json_object，parse_url

1.Return Type Name(Signature) Description stringparse_url(string urlString, string partToExtract [, string keyToExtract]) Returns the specif...

4年前
562
2
评论

Hive内嵌表生成函数UDTF：explode,posexplode,json_tuple,parse_url_tuple,stack

0.普通的用户定义函数，如concat()，接受单个输入行并输出单个输出行。Row-set columns types Name(Signature) Description T explode(ARRAY<T> a) Explodes an array to multiple ...

4年前
897
2
评论

Hive内嵌字符处理函数：regexp_extract,regexp_replace,split，replace，translate

1.Return Type Name(Signature) Description regexp_extract(string subject, string pattern, int index) Returns the string extracted using t...

4年前
2.7k
4
评论

Hive与MapReduce小文件合并问题

近来我们公司搞小文件治理（小于10Mb），小文件太多的危害就不此赘述了。set hive.merge.set hive.merge.set hive.merge.size.per.set hive.merge.smallfiles. 看上去配置的没啥问题，不管是...

4年前
826
2
评论

Hive：内嵌集合函数（size,map_keys,map_values,array_contains,sort_array等）

0.Return Type Name(Signature) Description int size(Map<K.V>) Returns the number of elements in the map type. int size(Array<T>) Returns the ...

4年前
1.0k
2
评论

Hive调优系列3：笛卡尔乘积,小表join大表，Mapjoin等问题

0. 真正想要掌握Hive的优化，要熟悉相关的MapReduce，Yarn，hdfs底层源码，明晰Hive的底层执行流程。真正让你明白Hive调优系列，会征对下面分类逐一分析演示。数据倾斜，这个是Hive优化的重头戏。出现的原因是因为出现了数据的重新分发和分布，启动了re...

4年前
958
3
评论

Hive：报错running beyond physical memory limits. Current usage: 2.0 GB of 2 GB ...

1.案例描述： hive有个定时任务平时正常，没有啥问题，正常一般大概执行1个小时左右，但是今天突然报错了，报错代码：running beyond physical memory limits. Cu

4年前
3.1k
5
评论

Hive：内置算术运算符与逻辑运算符

一.Hive内置算术运算符 1. 加法操作: + 语法: A + B 操作类型：所有数值类型说明：返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型（详见数据类型的继承关系）。比

4年前
2.1k
3
评论

Hive：压缩使用详解与性能分析

HIVE底层是hdfs和mapreduce实现存储和计算的。所以HIVE可以使用hadoop自带的InputFormat和Outputformat实现从不同的数据源读取文件和写出不同格式的文件到文件系

4年前
3.2k
7
评论

Hive：使用insert ....directory导出数据注意事项与使用详解

一个网友问我很简单的查询导出语句，使用insert .....directory导出数据后，无论是在hdfs上还是本地查看的，都是查看显示乱码问题分析：很明显导出的文件是.deflate格式。像.d

4年前
2.4k
3
评论

Hive：create table ,create table as与create like三种建表方式的使用详解

Hive的hql是基于sql而来，而sql中关于表的创建有几种方式。同样，hive也支持这些表的创建方式。

4年前
3.6k
3
评论

Hive：load ,insert ,sqoop等—— 往表中插入与导出数据方式详解

hive虽然不会验证用户装载的数据和表的模式是否匹配，但是hive会验证文件的存储格式和hive定义的表结构的存储格式是否一致。比如将文本文件装载到sequencefile表中则报错。

4年前
1.4k
29
评论

Hive：数据类型详解！

了解Hive数据类型，是Hive编程的基础。使用hive建表，首先要明白hive常用的数据类型有哪些，可以存储哪些类型的数据。其实Hive支持关系型数据库中的大多数基本数据类型，且同时支持关系型数据

4年前
5.9k
35
评论

Hive的行、列分隔符，你知道多少？

hive中在创建表时，一般会根据导入的数据格式来指定字段分隔符和列分隔符。一般导入的文本数据字段分隔符多为逗号分隔符或者制表符（但是实际开发中一般不用着这种容易在文本内容中出现的的符号作为分隔符）

4年前
1.6k
26
评论

hive：使用动态分区插入数据详解

因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。

4年前
2.1k
30
评论

hive程序报错OOM、内存不足、OutOfMemoryError: Java heap space等解决方式

本篇博客介绍一下“hive程序报错OOM、内存不足、OutOfMemoryError: Java heap space等解决方式”。欢迎大家一起探讨，评论、私信交流！

4年前
3.2k
31
评论

hive内嵌时间日期函数：所有时间日期的函数大汇总！

日期函数在hive中很常用，甚至有时候要自定义时间函数。首先hive中存放的数据经常是按时间分区进行存储的，有时候按时间分区的时间就是从日志中国解析出来的时间，或者有时候截取时间进行区间划分。比如我们自定义的时间函数DAYOFWEEK(日期)，返回当前日期是星期几。其...

4年前
1.8k
34
评论

开发中hive常见的7种调优策略，你知道几个？

1.开启本地模式；2.开启严格模式；3.Fetch抓取；4.开启并行执行；5.行列过滤，代码优化；6.开启JVM重用；7.小文件进行合并

4年前
604
29
评论

hive内嵌UDAF函数: 聚合函数使用详解

聚合函数是hive内置函数，聚合函数对一组值执行计算，并返回单个值。聚合函数经常与 SELECT 语句的 GROUP BY 子句一起使用。

4年前
786
31
评论