这是我参与「第五届青训营 」伴学笔记创作活动的第 4 天
一、本堂课重点内容:
- 课程:带你认识存储的本质 - 状态作业
交作业咯
二、课后作业简介:
-
WAL 日志到底是如何保证数据的持久化,宕机后数据不丢失的?相比于其他方案,WAL 日志都有什么优势?
-
除了 Undo Log 之外,是否还有其他方案可以实现 MVCC?
-
基于代价的优化器一般需要考虑哪些代价?
-
执行器的执行模型,除了本课中提到的火山模型是否还有其他模型?相比于火山模型有什么优劣势?
-
InnoDB 的 B+ Tree 是怎么实现的?
-
InnoDB 的 buffer pool 是怎么实现页面管理和淘汰的?
三、讲解
3.1 WAL 日志到底是如何保证数据的持久化,宕机后数据不丢失的?相比于其他方案,WAL 日志都有什么优势?
- 什么是WAL?WAL 是数据库中一种高效的日志算法,对于非内存数据库而言,磁盘I/O操作是数据库效率的一大瓶颈。在相同的数据量下,采用WAL日志的数据库系统在事务提交时,磁盘写操作只有传统的回滚日志的一半左右,大大提高了数据库磁盘I/O操作的效率,从而提高了数据库的性能。
- WAL如何保持数据持久化呢?使用WAL算法的系统,会将修改写入log文件中,log 文件中通常包括 redo 和 undo 信息。这样做的目的可以通过一个例子来说明。假设一个程序在执行某些操作的过程中机器掉电了。在重新启动时,程序可能需要知道当时执行的操作是成功了还是部分成功或者是失败了。如果使用了 WAL,程序就可以检查 log 文件,并对突然掉电时计划执行的操作内容跟实际上执行的操作内容进行比较。在这个比较的基础上,程序就可以决定是撤销已做的操作还是继续完成已做的操作,或者是保持原样。当然以上操作其实核心就是通过将文件放在其他地方保证数据库崩溃,日志也正常写入,多了一步校验的过程,因此宕机后数据不丢失,同时也知道数据是否正常修改。
- 优点:
-
- 读和写可以完全地并发执行,不会互相阻塞(但是写之间仍然不能并发)。
-
- WAL 在大多数情况下,拥有更好的性能(因为无需每次写入时都要写两个文件)。
-
- 磁盘 I/O 行为更容易被预测。
-
- 使用更少的 fsync()操作,减少系统脆弱的问题。
-
3.2 除了 Undo Log 之外,是否还有其他方案可以实现 MVCC?
- 这个我不是很清楚,不过从undo log的作用来看,MySQL的MVCC机制中,老版本的数据是通过undo log来记录的,当一个旧的事务需要读取数据时,为了能读取到老版本的数据,需要顺着undo链找到满足其可见性的记录。
- 因此只要有方案可以实现能够提供能查找到旧版本数据,并且相互不影响的前提下,都可以平替undo log的使用
- 再展开点,每条数据其实都有两个隐藏字段,一个是
trx_id,一个是roll_pointer,这个trx_id就是最近一次更新这条数据的事务 id,roll_pointer就是指向你了你更新这个事务之前生成的 undo log。
3.3 基于代价的优化器一般需要考虑哪些代价? 主要是时间
3.4 执行器的执行模型,除了本课中提到的火山模型是否还有其他模型?相比于火山模型有什么优劣势?
- 一共有三种,除了火山模型,还有物化模型(Materialization Model)、向量化/批处理模型(Vectorized / Batch Model)
- 优点:物化模型物化模型更适合OLTP负载,这些查询每次只访问小规模的数据,只需要少量的函数调用。向量化模型比较适合 OLAP 查询,因为其大大减少了每个 operator 的调用次数,也就简单减少了虚函数的调用
- 缺点:物化模型只能调用少量的数据,向量化模型则是函数比较复杂,向量化模型是火山模型以及物化模型的折中。
3.5 InnoDB 的 B+ Tree 是怎么实现的?
- 下期文章讲
3.6 InnoDB 的 buffer pool 是怎么实现页面管理和淘汰的?
- 了解不多,下次重点讲解
四、个人总结:
- 本次是对于作业的一点讲解,请各位批评指正