基本存储

日志结构的DB基本存储是key-value存储,如下代码片段所示：

#!/bin/bash
db_set () {
    echo "$1,$2" >> database
}

db_get () {
    grep "^$1," database | sed -e "s/^$1,//" | tail -n 1
}

key-value存储的功能主要是get和put.

grep "^$1," #database 匹配key
sed -e "s/^$1,//" #替换匹配到的行里面的key,为空字符串，也就是每行值留下value

可以看出，这个的底层的存储格式是一个纯文本，查找的时候使用tail -n 1来查询最后set的key对应的value。

来分析一下这个数据库。

关于grep,sed的工作模式，我在不可错过的文本处理工具：sed和awk有介绍，他们是按照以行为流的方式来处理文本的。

索引

为了高效的查找数据，往往需要一个数据结构来帮忙，称这个数据结构为索引。

索引就像路标，帮定位想要的数据。

对于上面的数据库，是key-value模式，那它的索引应该怎么设计呢？ hashmap是一种我们非常熟悉的高效数据结构，用它来作为磁盘文件的索引，将每个key映射到数据文件的特定的字节偏移量，就找到了每个值的位置。如下图所示：

所有的key都可以存在内存中，value的大小可以超过内存大小，只需要一次磁盘寻址，就可以把value加载到内存。

对于每个键频繁更新到场景，如果一直追加，则文件慢慢膨胀，如何避免用尽磁盘空间？

段的压缩等操作不会修改原来的文件，在后台任务执行就可以了，而且运行的时候，旧的段文件还可以继续正常读取，当压缩合并完成后，再将读请求切换到新的段文件上，旧的段文件可以安全删除。

如果同时存在多个段，则每个段都自己的内存哈希表，则首先检查最新的段的hashmap,如果key不存在，则检查第二新的，依此类推。

在一个可用的数据库落地之前，还有一些问题不可避免。

只是还要考虑文件的存储。当需要删除一个记录的时候，需要在数据文件中追加一个特殊的删除记录。但合并日志段时，一旦发现墓碑标记，则丢弃这个删除键的所有值。

总的来说，追加文件的，也就是日志结构的存储具有很多的优势：