LSMT 存储引擎浅析｜青训营笔记

2022-08-22 137 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的第15天，今天学习了LSMT这个数据结构并了解的他的历史和优点，并整理了相关资料和概念，来补充学习。

LSMT 存储引擎浅析

LSMT的历史

1996年由Patrick提出
B-Tree在1970年被提出

LSMT是什么

子结构 SSTable

第一次看到这个单词的时候觉得一头雾水是正常的，SSTable的全称是Sorted String Table，本质就是一个KV结构顺序排列的文件。

最基础的SSTable就是上图当中右侧的部分，即key和value的键值对按照key值的大小排序，并存储在文件当中。当我们需要查找某个key值对应的数据的时候，我们会将整个文件读入进内存，进行查找。同样，写入也是如此，我们会将插入的操作在内存中进行，得到结果之后，直接覆盖原本的文件，而不会在文件当中修改，因为这会牵扯到移动大量的数据。

增删改查

其实最基本的LSM原理非常简单，本质上就是在SSTable的基础上增加了一个Memtable，Memtable顾名思义就是存放在内存当中的表结构。当然也不一定是表结构，也可以是树结构，这并不影响，总之是一个可以快速增删改查的数据结构，比如红黑树、SkipList都行。其次我们还需要一个log文件，和数据库当中的log一样，记录数据发生的变化。

由于SSTable的数量可能会很多，而且我们必须要顺序查找，所以当SSTable数量很大的时候，也会影响查找的速度。为了解决这个问题，我们可以引入布隆过滤器进行优化。我们对每一个SSTable建立一个布隆过滤器，可以快速地判断元素是否在某一个SSTable当中。布隆过滤器判断元素不存在是一定准确的，而判断存在可能会有一个很小的几率失误，但这个失误率是可以控制的，我们可以设置合理的参数，使得失误率足够低。

总结

单机数据库的ACID特性依赖于存储引擎
LSMT存储引擎的顺序写特性更加适合现代计算机体系结构
LSMT和B+Tree可以用同义模型描述并相互转化