这是我参与「第五届青训营」笔记创作活动的第18天。

一、本堂课重点知识

今天主要的学习内容是ClickHouse的相关知识。

二、详细知识点介绍

1. 数据库基本概念

数据库的类型
- 关系数据库：关系型数据库是把数据以表的形式进行储存，然后再各个表之间建立关系，通过这些表之间的关系来操作不同表之间的数据。
- 非关系数据库：NoSQL或非关系数据库，支持存储和操作非结构化及半结构化数据。相比于关系型数据库，NoSQL没有固定的表结构，且数据之间不存在表与表之间的关系，数据之间可以是独立的。
- OLTP数据库：OLTP(Online transactional processing)数据库是一种高速分析数据库，专为多个用户执行大量事务而设计。
- OLAP数据库：OLAP(Online analytical processing)数据库旨在同时分析多个数据维度，帮助团队更好地理解其数据中的复杂关系
  - 大量数据的读写，PB级别的存储
  - 多维分析，复杂的聚合函数
  - 窗口函数，自定义UDF(User DefineFucntion)
  - 离线/实时分析
SQL
- 一种编程语言，目前几乎所有的关系数据库都使用SQL(Structured Query Language)编程语言来查询、操作和定义数据，进行数据访问控制。
- 一个简单的SQL查询包含SELECT关键词。星号（"*")也可以用来指定查询应当返回查询表所有字段，可选的关键词和子句。
- FROM子句指定了选择的数据表。FROM子句也可以包含JOIN二层子句来为数据表的连接设置规则。
- WHERE子句后接一个比较谓词以限制返回的行。WHERE子句仅保留返回结果里使得比较谓词的值为True的行。
- GROUP BY子句用于将若干含有相同值的行合并。GROUP BY通常与SQL聚合函数连用，或者用于清除数据重复的行。GROUP BY子句要用在WHERE子句之后。
- 定义数据模型
- 读写数据库数据
- 优点
  - 1.标准化，ISO和ANSI是长期建立使用的SQL数据库标准
  - 2.高度非过程化，用SQL进行数据操作，用户只需提出“做什么”，而不必指明“怎么做”，因此用户无须了解存取路径，存取路径的选择以及SQL语句的操作过程由系统自动完成。这不但大大减轻了用户负担，而且有利于提高数据独立性。
  - 3.以同一种语法结构提供两种使用方式，用户可以在终端上直接输入SQL命令对数据库进行操作。作为嵌入式语言，SQL语句能够嵌入到高级语言(如C、C#、JAVA)程序中，供程序员设计程序时使用。而在两种不同的使用方式下，SQL的语法结构基本上是一致的。
  - 4.语言简洁，易学易用：SQL功能极强，但由于设计巧妙，语言十分简洁，完成数据定义、数据操纵、数据控制的核心功能只用了9个动词：CREATE、ALTER、DROP、SELECT、INSERT、UPDATE、DELETE、GRANT、REVOKE。且SQL语言语法简单，接近英语口语，因此容易学习也容易使用。

1.管理内存数据结构
- 索引
- 内存数据
- 缓存
- Query cache
- Data cache
- Index cache
2.管理磁盘数据
- 磁盘数据的文件格式
- 磁盘数据的增删查改
3.读写算子
- 数据写入逻辑
- 数据读取逻辑

2. 列式存储

优点
- 数据压缩
  - 数据压缩可以使读的数据量更少，在○密集型计算中获得更大的性能优势
  - 相同类型压缩效率更高
  - 排序之后压缩效率更高
  - 可以针对不同类型使用不同的压缩算法
- LZ4
  - (5,4)代表向前5个byte,匹配到的内容长度有4，即"bcde"是一个重复
  - 重复项越多或者越长，压缩率就会越高
- Run-length encoding:
  - 压缩重复的数据
  - 可以再压缩数据上直接计算
- Delta encoding
  - 将数据存储为连续数据之间的差异，而不是直接存储数据本身
  - 特定算子也能直接在压缩数据上计算
- 数据选择：
  - 可以选择特定的列做计算而不是读所有列
  - 对聚合计算友好
- 延迟物化：
  - 物化：将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程，物化后的数据通常可以用来做数据过滤，聚合计算，Join
  - 延迟物化：尽可能推迟物化操作的发生
    - 缓存友好
    - CPU/内存带宽友好
    - 可以利用到执行计划和算子的优化，例如filter
    - 保留直接在压缩列做计算的机会
- 向量化
  - SIMD：对于现代多核CPU，其都有能力用一条指令执行多条数据
  - 数据格式
    - 需要处理多个数据，因此数据需要是连续内存
    - 需要明确数据类型
  - 执行模式
    - 数据需要按批读取
    - 函数的调用需要明确数据类型

3. ClickHouse存储设计

分布式表：不存储数据，用于将查询路由到集群的各个节
- cluster:逻辑集群，由多个节点组成
- shard_key:指导数据写入分布式表时的分布方式
本地表：实际存储数据的表

part和column
- 每个column都是一个文件
- 所有的column文件都在自己的part文件夹下
column和index
- 一个part有一个主键索引
- 每个column都有列索引

Hash Index

将输入的key通过一个HashFunction映射到一组bucket上
每个bucketi都包含一个指向一条记录的地址
哈希索引在查找的时候只适用于等值比较

B树_百度百科 (baidu.com)

B+树_百度百科 (baidu.com)

Log-structured merge-tree(LSM tree)是一种为大吞吐写入场景而设计的数据结构

着重优化顺序写入
主要数据结构
1. SSTables
  1. Key按顺序存储到文件中，称为segment
  2. 包含多个segment
  3. 每个segment!写入磁盘后都是不可更改的，新加的数据只能生成新的segment
2. Memtable
  1. 在内存中的数据保存在memtable中，大多数实现都是一颗Binary search tree
  2. 当memtable存储的数据到达一定的阈值的时候，就会按顺序写入到磁盘

数据查询

需要从最新的segment开始遍历每个key
也可以为每个segmenti建一个索引，例如

Compaction（合并）

Compaction指将多个segments合并成一个segments的过程
一般是有一个后台线程完成
不同的segments写入新的segment的时候也是需要排序，形成新的segment之后，旧的segment文件就会被删除

数据按照主键顺序依次做排序

首先按照UserID做排序
再按照URL排序
最后是EventTime

数据被划分为granules

granules, 是最小的数据读取单元
不同的granulas可以并行读取

每个列都有这样一个mark文件

mark文件保存的是每个granules的物理地址
每一列都有一个自己的mark文件

缺陷：数据按照key的顺序做排序，因此只有第一个key的过滤效果好，后面的key过滤效果依赖第一个key的基数大小

构建多个主键索引

再建一个表，使用需要优化的字段做主键第一位
1. 数据需要同步两份
2. 查询需要用户判断查哪张表
建一个物化视图
- 物化视图：可以通过selecti查询将一个表的数据写入一张隐式表
1. 数据自动同步到隐式表
2. 查询需要用户判断查哪张表
使用Projection
- projection:类似于物化试图，但是不是将数据写入新的表，而是存储在原始表中，以一个列文件的形式存在
1. 数据自动同步到隐式表
2. 查询自动路由到最优的表

4. ClickHouse典型应用场景

大宽表存储和查询
离线数据分析
复杂类型查询

三、实践练习例子

列存和行存的差别是什么，使用场景有什么不同
列存的优点有哪些
列存的缺点有哪些
列存适合什么样的索引
ClickHouse的列存是什么样的存储架构
ClickHouse的索引是怎么设计的
ClickHouse的查询是怎么使用索引的

四、课后个人总结

深入了解了更多ClickHouse相关知识。

五、引用参考