这是我参与「第五届青训营 」伴学笔记创作活动的第 11 天,本次对于数据库的学习,同时了解了新知识点--clickhouse,对于列存储有了更深的学习和了解。
数据库:结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统(DBMS)来控制。数据、DBMS及关联应用一起被称为数据库系统。
数据库分类
关系数据库:
关系型数据库是把数据以表的形式进行存储,各个表之间建立关系,通过这些表之间的关系来操作不同表之间的数据。
非关系数据库
NoSQL或非关系数据库,支持存储和操作非结构化数据。相比关系型数据库,NoSQL没有固定的表结构,且数据之间不存在表与表之间的关系,数据之间可以是独立的。
单机数据库
在一台计算机上完成数据的存储和查询的数据库系统。
分布式数据库
由位于不同站点的两个或多个文件组成。数据库可以存储在多台计算机上,位于同一个物理位置,或分散在不同的网络上。
OLTP数据库
是一种高速分析数据库,专为多个用户执行大量事务而设计。
OLAP数据库
旨在同时分析多个数据维度,帮助团队更好地理解其数据中的复杂关系。
- 大量数据的读写,PB级别的存储
- 多维分析,复杂的聚合函数
- 窗口函数,自定义UDF
- 离线/实时分析
SQL优点
- 标准化,ISO和ANSI是长期建立使用的SQL数据库标准
- 高度非过程化,用SQL进行数据操作,用户无需了解存取路径,存取路径的选择以及SQL语句的操作过程由系统自动完成,有利于提高数据独立性。
- 用户可在终端直接输入SQL命令,同时SQL可以嵌入高级语言
- SQL功能强大,语法简单,容易使用。
存储引擎
管理内存数据结构
- 索引
- 内存数据
- 缓存(Query cache、Data cache、Index cache)
管理磁盘数据
- 磁盘数据的文件格式
- 磁盘数据的增删改查
读写算子
- 数据写入逻辑
- 数据读取逻辑
列式存储
数据压缩
- 数据压缩可以使度的数据流更少,在IO密集型计算中获得更大的性能优势
- 相同类型压缩效率更高
- 排序之后压缩效率更高
- 可以针对不同类型使用不同的压缩算法
延迟物化
(物化:将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程,物化后的数据通常可以用来做数据过滤,聚合计算,join)
- 缓存友好
- CPU/内存带宽友好
- 可以利用到执行计划和算子的优化
- 保留直接在压缩列做计算的机会
向量化
- SIMD(多多核CPU,能用一条指令执行多条数据)
- 数据格式
- 执行模型
数据格式要求
- 需要处理多个数据,数据西药连续内存
- 需要明确数据类型
执行模型要求
- 数据需要按批读取
- 函数的调用需要明确数据类型