ElasticSearch 内部原理：事务日志及其相关调优上次我们说到，数据会暂时缓存在内存中，在达到一定的条件下一次性

"这就是 Elasticsearch 脱颖而出的地方：Elasticsearch 鼓励你去探索与利用数据，而不是因为查询数据太困难，就让它们烂在数据仓库里面。 Elasticsearch 将成为你最好的朋友。"

事务日志

上次我们说到，数据会暂时缓存在内存中，在达到一定的条件下一次性写入硬盘中，这种做法可以大大提升数据写入的速度。但是由于，由于数据暂时被缓存在内存当中，并没有真正持久化到硬盘内。这时如果出现断电等不可控的情况，就会丢失数据。为此，ElasticSearch添加了事务日志来解决这个问题。

首先，ES的写索引的具体过程如下：

当有数据写入时，为了提升写入的速度，并没有把数据写在硬盘上，而是先写入到内存中，但是为了防止数据的丢失，会追加一份到事务日志中。

然后，当到达默认刷新时间或者内存数据达到一定的数量时，会触发一次刷新。

刷新的主要步骤如下：

将内存中的数据刷新到一个新的段中，但是该段并没有持久化到硬盘中，而是缓存在操作系统的文件系统中。

重点：虽然数据还在内存中，但是内存中的数据与文件系统缓存的数据有以下区别：

内存使用的是es-jvm的内存，而文件系统缓存使用的是操作系统的内存。（重要）
内存的数据不是以“段”的形式存储的，并且可以继续向内存里写数据。文件系统缓存中的数据是以段的形式存在的，所以只能读，不能写。
内存中的数据是搜索不到的，文件系统的数据可以被搜索到。（所以ES不是实时搜索，而是准实时搜索，需要等待内存中的数据被刷新到文件系统缓存后，数据才能被检索到）

打开保存文件系统中缓存的段，使其可被搜索。
清空内存中的数据，准备接受新的数据。事务日志不做清空处理

其后，会继续重复这个过程

最后，当日志数据超过512MB或者时间超过30分钟（默认），需要触发一次刷新。

与此前不同的是，这次刷新会调用fsync函数将文件系统缓存的数据刷新到硬盘上，并清空事务日志。

小结

由上面的索引创建步骤可知，索引在写入时并没有直接写入硬盘，而是先缓存到操作系统的文件系统缓存中去。同时使用事务日志来防止ES服务挂掉后重新启动后的在缓存数据的重新索引：事务日志提供所有还没有被刷到磁盘的操作的一个持久化纪录。当 Elasticsearch 启动的时候，它会从磁盘中使用最后一个提交点去恢复已知的段，并且会重放事务日志中所有在最后一次提交后发生的变更操作。