ClickHouse - 你没有见过的列存储 | 青训营笔记

19 阅读4分钟

这是我参与【第五届青训营】伴学笔记创作活动的第17天

一、数据库基本概念

数据库

数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统(DBMS) 来控制。在现实中,数据、DBMS及关联应用一起被称为数据库系统,通常简称为数据库。

数据库类型

关系数据库: 关系型数据库是把数据以表的形式进行储存,然后再各个表之间建立关系,通过这些表之间的关系来操作不同表之间的数据。

非关系数据库: NoSQL 或非关系数据库,支持存储和操作非结构化及半结构化数据。相比于关系型数据库,NoSQL没有固定的表结构,且数据之间不存在表与表之间的关系,数据之间可以是独立的。


单机数据库:在一台计算机上完成数据的存储和查询的数据库系统

分布式数据库:分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个物理位置,或分散在不同的网络上.


OLTP 数据库: OLTP (Online transactional processing) 数据库是一种高速分析数据库,专为多个用户执行大量事务而设计。

OLAP 数据库: OLAP (Online analytical processing) 数据库旨在同时分析多个数据维度,帮助团队更好地理解其数据中的复杂关系

SQL优点

1.标准化,ISO和ANSI是长期建立使用的SQL数据库标准

2.高度非过程化,用SQL进行数据操作,用户只需提出“做什么”,而不必指明"怎么做”,因此用户无须了解存取路径,存取路径的选择以及SQL语句的操作过程由系统自动完成。这不但大大减轻了用户负担,而且有利于提高数据独立性

3.以同一种语法结构提供两种使用方式,用户可以在终端上直接输入SQL命令对数据库进行操作。作为嵌入式语言,SQL语句能够嵌入到高级语言(如C、C#、JAVA) 程序中,供程序员设计程序时使用。而在两种不同的使用方式下,SQL的语法结构基本上是一致的

4.语言简洁,易学易用: SQL功能极强,但由于设计巧妙,语言十分简洁,完成数据定义、数据操纵、数据控制的核心功能只用了9个动词: CREATE、ALTER、DROP、SELECT、INSERT.UPDATE、DELETE、GRANT、REVOKE。且SQL语言语法简单,接近英语口语,因此容易学习,也容易使用

数据库架构

image.png

二、列式存储

image.png

优点

1.数据压缩

  • 数据压缩可以使读的数据量更少,在IO密集型计算中获得更大的性能优势
  • 相同类型压缩效率更高
  • 排序之后压缩效率更高
  • 可以针对不同类型使用不同的压缩算法

2.延迟物化

尽可能推迟物化操作的发生

物化: 将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程,物化后的数据通常可以用来做数据过滤,聚合计算,Join

  • 缓存友好
  • CPU/内存带宽友好
  • 可以利用到执行计划和算子的优化,例如filter
  • 保留直接在压缩列做计算的机会

3.向量化

  • SIMD
  • 数据格式
  • 执行模型

行存 vs 列存

image.png

三、ClickHouse典型应用场景

1、大宽表存储和查询

1.大宽表查询

  • 可以建非常多的列
  • 可以增加,删除,清空每一列的数据
  • 查询的时候引擎
  • 可以快速选择需要的列可以将列涉及到的过滤条件下推到存储层从而加速查询

2.动态表结构

  • map中的每个key都是一列
  • map中的每一列都可以单独的查询使用方式同普通列,可以做任何计算

2、离线数据分析

1.数据导入

  • 数据可以通过spark生成clickhouse格式的文件
  • 导入到hdfs上由hive2ch导入工具完成数据导入
  • 数据直接导入到各个物理节点

2.数据按列导入

  • 保证查询可以及时访问已有数据
  • 可以按需加载需要的列

3、使用memory table减少parts数量

1.数据先缓存在内存中

2.到达一定阈值再写到磁盘

4、复杂类查询

1.bitmap索引(查询)

2.Bitmap64类型

3.lowcardinality

  • 对于低基数列使用字典编码
  • 减少数据存储和读写的IO使用
  • 可以做运行时的压缩数据过滤

总结

1.ClickHouse是标准的列存结构

2.存储设计是LSM-Tree架构

3.使用稀疏索引加速查询

4.每个列都有丰富的压缩算法和索引结构

5.基于列存设计的高效的数据处理逻辑