ClickHouse 列式存储 | 青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第 10 天数据库基本概念

这是我参与「第五届青训营」伴学笔记创作活动的第 10 天

数据库基本概念

数据库是结构化信息或数据的有序集合，一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中，数据、DBMS及关联应用一起被称为数据库系统，通常简称为数据库。

OLTP 数据库: OLTP (Online transactional processing) 数据库是一种高速分析数据库，专为多个用户执行大量事务而设计。

OLAP 数据库: OLAP (Online analytical processing) 数据库旨在同时分析多个数据维度，帮助团队更好地理解其数据中的复杂关系

数据库架构

数据压缩

压缩算法

LZ4

输入：abcde_bcdefgh_abcdefghxxxxxxx

输出：abcde_(5,4)fgh_(14,5)fghxxxxxxx

(5,4) 代表向前5个byte，匹配到的内容长度有4，即"bcde"是一个重复

重复项越多或者越长，压缩率就会越高

Run-length encoding

输入：WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW

输出：12W1B12W3B24W1B14W

压缩重复的数据

Delta encoding

输入：105, 135, 112, 135, 143, 147

输出：105(base),30, -23, 23, 8, 4

将数据存储为连续数据之间的差异，而不是直接存储数据本身

1.可以选择特定的列做计算而不是读所有列 2.对聚合计算友好

延迟物化：尽可能推迟物化操作的发生
- 缓存友好
- CPU / 内存带宽友好
- 可以利用到执行计划和算子的优化，例如filter
- 保留直接在压缩列做计算的机会

列存和行存比较.png

表分区（Partition）概念

表中的数据可以按照指定的字段分区存储，每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段，数据量大的表可以按照小时分区，数据量小的表可以在按照天分区或者月分区，查询时，使用分区字段作为Where条件，可以有效的过滤掉大量非结果集数据。

ClickHouse 分区的目的是为了尽可能地减少读取的数据量，那么它有哪些特点呢？

分片（Shard）概念

一个分片本身就是ClickHouse一个实例节点，分片的本质就是为了提高查询效率，将一份全量的数据分成多份（片），从而降低单节点的数据扫描数量，提高查询性能。