数仓-数仓中使用哪种数据存储格式?ORC和Parquet的区别

167 阅读1分钟

数据存储格式有textFile,sequenceFile,ORC,Parquet等

ods层使用textFile存储格式,使用Gzip压缩格式。因为ods层数据量大,访问频率较高,为了数据读取的快,所以使用textFile格式。

其他层使用ORC格式+snappy,snappy虽然不支持数据的分片,但是ORC数据是分片存储的,所以使用snappy压缩也可以实现分片。

ORC和Parquet的区别:

ORC和Parquet都是列式存储格式,用于高效地存储和查询大规模数据。相比于Parquet,ORC在写入和读取方面更加高效,支持动态结构和嵌套数据类型,适用于存储非常规数据和半结构化数据。而Parquet在支持跨平台查询和集成方面表现更好,被广泛应用于多种开源和商业分布式计算和分析系统中。不同的应用场景下,可以根据需求选择最合适的存储格式。