【Elasticsearch】8. ES集群介绍ES集群核心概念 1. 集群（Cluster）一个集群就是由一个或多个

ES集群核心概念

1. 集群（Cluster）

一个集群就是由一个或多个节点组织在一起，它们共同持有你整个的数据，并一起提供索引和搜索功能。

一个集群由一个唯一的名字标识，这个名字默认就是："elasticsearch"。这个名字是重要的，因为一个节点只能通过指定某个集群的名字，才能加入某个集群。在生产环境中单独设定这个名字是一个好习惯，但是使用默认值来进行测试 / 开发也是不错的。

2. 节点（Node）

一个节点是你集群中的一个服务器，作为集群的一部分，它存储你的数据，参与集群的索引和搜索功能。

和集群类似，一个节点也是由一个名字来标识的。默认情况下，这个名字是一个随机的漫威漫画角色的名字，这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理过程中，你会去确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。

一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫做 "elasticsearch" 的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做 "elasticsearch" 的集群中。

在一个集群里，只要你想，可以拥有任意多个节点。而且，如果当前你的网络中没有运行任何Elasticsearch节点，这时启动一个节点，会默认创建并加入一个叫做 "elasticsearch" 的集群。

3. 分片和复制（Shards & Replicas）

一个索引可以存储超出单个结点硬件限制的大量数据。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任一节点都没有这样大的磁盘空间;或者单个节点处理搜索请求，响应太慢。为了解决这个问题,Elasticsearch提供了将索引划分成多份的能力，这些份就叫做分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”，这个"索引"可以被放置到集群中的任何节点上。

分片之所以重要，主要有两方面的原因：

允许你在分片上进行水平分割，扩展内容容量。
允许你在分片之上进行分布式的并行的操作，进而提高性能和吞吐量。

至于一个分片怎样分布，它的文档怎样聚合回搜索请求，是完全由Elasticsearch管理的，对于作为用户的你来说，这些都是透明的。

在一个网络/云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了。这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片，或者直接叫复制。

复制之所以重要，主要有两方面的原因：

在分片 / 节点出现意外故障的情况下，提供了高可用性。（复制分片从不与原分片置于同一节点上是非常重要的。）
扩展你的搜索量 / 吞吐量，因为搜索可以在所有的复制上并行运行

总之，每个索引可以被切分成多个分片。一个索引也可以被复制0次或多次。一旦复制了，每个索引就有了主分片和复制分片。分片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制数量，但是不能改变分片的数量。

默认情况下，Elasticsearch中的每个索引被分片5个主分片（ES6是默认5个主分片，ES7及以上是默认1个主分片），每一个主分片都会被备份一个复制分片。因此，建议你的集群中至少有两个节点，你的索引将会有5个主分片和另外5个复制分片，这样的话每个索引总共就有10个分片。一个索引的多个分片可以存放在集群中的一台主机上，也可以存放在多台主机上，这取决于你的集群机器数量。主分片和复制分片的具体位置是由ES内在的策略所决定的。

分片和复制数量参数如下：

put /postilhub/
{
   "settings": {
       "number_of_replicas": 1,
       "number_of_shards": 5
   }
}

ES集群解决的问题

集群的存在主要是为了解决单机模式会造成的三个问题：并发问题、物理资源上限问题和数据冗余备份问题。

并发问题：假如在某个时段，单节点遭遇大量请求，在到达节点并发上限后，请求还在持续增加，这种情况下会导致节点宕机或者阻塞。
资源上限问题：在单节点中存储的索引数量越来越多，在到达节点物理资源上限后，则无法存储新的索引。
数据备份问题：如果在某一时刻发生自然灾害，一个节点收到了损毁，那么所有数据都会丢失。

有了集群后，检索时是多个节点对外提供服务，可以解决并发问题；所有数据不会存储在一个节点上，所以可以解决资源上限问题；节点数据不会备份在自身节点，可以解决数据备份问题。

ES集群架构图

已知每个节点最大存储800G。

假设存储的index中有10亿个Document，总大小为1T，ES集群默认将其平均分成5个主分片，每个分片200G，并各自备份一份。

至于这些主分片分片和其复制分片如何散列存储，搜索出来的主分片或者复制分片如何聚合，这些ES内有专门的算法来完成，无需用户做任何干预。

为了保证数据安全，一般情况下，主分片和其复制分片不会存储在同一个Node上。

如果发生特殊情况，导致某个主分片丢失，那么此时该主分片的复制分片就会代替该主分片聚合到搜索结果中。

每一个分片都是一个独立的索引集，可以并行的在每一个索引集上进行搜索，最终会将搜索结果进行聚合，大大提高了搜索效率。

当主分片和复制分片不能聚合成一个完整的数据时，ES集群将不再对外提供服务，集群不可用。

集群搭建的节点数建议是奇数。