17 ClickHouse学习 | 青训营笔记

63 阅读3分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 17 天

数据库基本概念

  • 数据库是什么:数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。在现实中,数据、DBMS 及关联应用一起被称为数据库系统,通常简称为数据库。

    • 数据解析整理成有序集合
    • 通过封装好的查询语言获取想要的信息
  • 数据库类型

    • 按模型分类

      • 关系型数据库:关系型数据库是把数据以表的形式进行存储,然后在各表之间建立关系,通过这些表之间的关系来操作不同表之间的数据。
      • 非关系型数据库:NoSQL或非关系数据库,支持存储和操作非结构化及半结构化数据。相比于关系型数据库,NoSQL没有固定的表结构,且数据之间不存在表与表之间的关系,数据之间可以是独立的。
    • 按存储分类

      • 单机数据库:在一台计算机上完成数据的存储和查询的数据库系统。
      • 分布式数据库:分布式数据库由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个我屋里位置,或分散在不同的网络上。
    • 按使用场景分类

      • OLTP(Online transactional processing)数据库是一种高速分析数据库,专为多个用户执行大量事务而设计,有较多的点查操作。

      • OLAP(Online analytical processing)数据库旨在同时分析多个数据维度,帮助团队更好地理解其数据中的复杂关系。

        • 大量数据的读写,PB级别的存储
        • 多维分析,复杂的聚合函数
        • 窗口函数,自定义UDF(User Define Function)
        • 离线/实时分析(实时指数据是实时产生的),对查询速度有要求
  • SQL语言

    • SELECT

      image.png

    • FROM

      image.png

    • WHERE

      image.png

    • GROUP BY

      image.png

  • SQL优点

    • 标准化
    • 高度非过程化
    • 语法结构基本一致
    • 语言简洁,易学易用
  • 存储引擎在做什么

    1. 管理内存的数据结构

      • 索引
      • 内存数据
      • 缓存:Query Cache;Data Cache;Index Cache
    2. 管理磁盘数据

      • 磁盘数据的文件格式
      • 磁盘数据的增删改查
    3. 读写算子

      • 数据写入逻辑
      • 数据读取逻辑

列式存储

列存的优点

  • 数据压缩

    • 数据压缩可以使读的数据量更少,在IO密集型计算中获得大的性能优势
    • 相同类型压缩效率更高
    • 排序之后压缩效率更高
    • 可以针对不同类型使用不同的压缩算法
    • 几种常见的压缩算法
  • 数据处理

  • 【查询优化】

    • 1.可以选择特定的列做计算而不是读所有列 2.对聚合计算友好
  • 【延迟物化】

    • 物化:将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程,物化后的数据通常可以用来做数据过滤,聚合计算,Join

    • 延迟物化:尽可能推迟物化操作的发生

    • 缓存友好

    • CPU / 内存带宽友好

    • 可以利用到执行计划和算子的优化,例如filter

    • 保留直接在压缩列做计算的机会

ClickHouse存储设计

  • ClickHouse的架构

image.png

  • 表定义和结构

image.png

  • 集群架构

image.png