这是我参与「第四届青训营 」笔记创作活动的第9天
对于大数据计算任务而言,有个至关重要的问题就是:“如何高效读取数据”。目前来说,业界对这个问题给出的答案是使用列式储存。
传统的OLTP注重某一行的数据修改,因此一般都是采取行存储。OLAP这种大数据计算则与之不同,它更注重数据整体,而且许多任务中,具体到某一行的话,它 仅仅关注其中的一两个字段的内容。
在这种数据上使用列式有许多的好处,同一列是相同的一类数据。这意味着这种数据组织形式可能有缓存友好、高效读取等诸多优点,具体还是依赖相关实现。
列式储存有两个具有代表性的产品:Parquet和ORC。Parquet是应用最广的,并且是Spark的推荐数据组织。