create table log_text (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE ;

2）向表中加载数据

load data local inpath '/export/data/hivedatas/log.data' into table log_text ;

3）查看表中数据大小

hadoop fs  -du -h /user/hive/warehouse/myhive.db/log_text;

18.1 M /user/hive/warehouse/log_text/log.data

2、ORC

1）创建表，存储数据格式为OR

create table log_orc(

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS orc ;

2）向表中加载数据

insert into table log_orc select * from log_text ;

3）查看表中数据大小

hadoop fs  -du -h /user/hive/warehouse/myhive.db/log_orc;

2.8 M /user/hive/warehouse/log_orc/123456_0

3、Parquet

1）创建表，存储数据格式为parquet

create table log_parquet(

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS PARQUET ;

2）向表中加载数据

insert into table log_parquet select * from log_text ;

3）查看表中数据大小

hdoop fs  -du -h /user/hive/warehouse/myhive.db/log_parquet;

13.1 M /user/hive/warehouse/log_parquet/123456_0

存储文件的压缩比总结：

ORC **> ****Parquet > **********text File

存储文件的查询速度测试：

1）TextFile

hive (default)> select count(*) from log_text;

_c0

100000

Time taken: 21.54 seconds, Fetched: 1 row(s)

2）ORC

hive (default)> select count(*) from log_orc;

_c0

100000

Time taken: 20.867 seconds, Fetched: 1 row(s)

3）Parquet

hive (default)> select count(*) from log_parquet;

_c0

100000

Time taken: 22.922 seconds, Fetched: 1 row(s)

存储文件的查询速度 总结：

ORC > TextFile > Parquet

三、存储和压缩结合

ORC存储方式的压缩：

Key	Default	Notes
orc.compress	ZLIB	high level compression (one of NONE, ZLIB, SNAPPY)
orc.compress.size	262,144	number of bytes in each compression chunk
orc.stripe.size	67,108,864	number of bytes in each stripe
orc.row.index.stride	10,000	number of rows between index entries (must be >= 1000)
orc.create.index	true	whether to create row indexes
orc.bloom.filter.columns	""	comma separated list of column names for which bloom filter should be created
orc.bloom.filter.fpp	0.05	false positive probability for bloom filter (must >0.0 and <1.0)

1、创建一个非压缩的的ORC存储方式

1）建表语句

create table log_orc_none(

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS orc tblproperties ("orc.compress"="NONE");

2）插入数据

insert into table log_orc_none select * from log_text ;

3）查看插入后数据

hadoop fs -du -h /user/hive/warehouse/myhive.db/log_orc_none;

7.7 M /user/hive/warehouse/log_orc_none/123456_0

2、创建一个SNAPPY压缩的ORC存储方式

1）建表语句

create table log_orc_snappy(

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS orc tblproperties ("orc.compress"="SNAPPY");

2）插入数据

insert into table log_orc_snappy select * from log_text ;

3）查看插入后数据

hadoop fs  -du -h /user/hive/warehouse/myhive.db/log_orc_snappy ;

3.8 M /user/hive/warehouse/log_orc_snappy/123456_0

3、上一节中默认创建的ORC存储方式，导入数据后的大小为

2.8 M /user/hive/warehouse/log_orc/123456_0

比Snappy压缩的还小。原因是orc存储文件默认采用ZLIB压缩。比snappy压缩的小。

4、存储方式和压缩总结：

在实际的项目开发当中，hive表的数据存储格式一般选择：orc或parquet。压缩方式一般选择snappy。

📢博客主页：lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢大数据系列文章会每天更新，停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨

2021年大数据Hive（十）：Hive的数据存储格式

系列历史文章

前言

Hive的数据存储格式

一、列式存储 和行式存储

​​​​​​​二、主流 文件 存储 格式 对比实验

1、Text File

2、ORC

3、Parquet

​​​​​​​三、存储 和压缩结合

1、创建一个非压缩的的ORC存储方式

2、创建一个SNAPPY压缩的ORC存储方式

3、上一节中默认创建的ORC存储方式，导入数据后的大小为

4、存储方式和压缩总结：

一、列式存储和行式存储

二、主流文件存储格式对比实验

三、存储和压缩结合