分布式搜索引擎1）把索引可以拆分成多个 shard（分区），每个 shard 存储部分数据。 2）这个 shard 的数

es 分布式架构原理

elastic Search 工作原理

首先客户端根据配置的连接节点，通过轮询方式链接到一个 coordinate 节点（协调节点），该节点仅用于处理客户端的请求，集群中所有的节点都可以是 coordinate 节点。
coordinate 节点通过 hash 算法计算出数据应该归属的 shard（图例是 shard 1）shard = hash(document_id) % (num_of_primary_shards)，然后根据节点上维护的 shard 信息，将请求发送到 node 1 上。
node 1 对索引数据进行校验，然后写入到 shard 中。
主节点数据写入成功后，将数据并行发送副本节点 Node2，Node3（shard 1-R1，shard 1-R2 分片）；
1. 数据写入到内存 Buffer。
2. 同时写入到 Translog Buffer。
3. 每隔 1s 数据从 buffer 中 refresh 到 FileSystemCache 中，生产 segment 文件，之后数据就可以通过索引查询到了。
4. refresh 结束，清空 Memory Buffer。
5. 每隔 5s translog 从 buffer flush 到磁盘中。
6. 定期/定量从 FileSystemCache 中，结合 translog 内容 flush index到磁盘中，做增量 flush。
Node 2，Node 3 写入数据成功后，发送 ack 信号给 shard 1 主节点 Node 1；
Node 1 发送 ack 给 coordinate node。
coordinate node 发送 ack 给客户端。

buffer 和 cache 的区别

Buffer 是系统两端处理速度平衡时使用的。它的引入是为了减少短期内突发的 I/O 影响，起到流量整形的作用。
Cache 则是系统两端处理速度不匹配时的一种折衷策略。因为 CPU 和 Memory 之间的速度差异越来越大，所以人们充分利用数据的局部性原理，通过使用存储系统分级的策略来减小这种差异带来的影响。

写入到 Buffer 的数据还是原始数据，还没有索引。

Cache 中的数据是可以搜索的。

引用