分布式搜索引擎之ElasticSearch

165 阅读1分钟

ElasticSearch又称ES,其作为常见的分布式搜索引擎技术。广泛应用在关键词查询业务中、以及监控日志管理中。

搜索引擎:搜索引擎存储方式与传统关系型数据库不同,提取内容中的关键字进行分词后标记对应内容的Id编号。 存储结构类似

id关键字
1,2,5好看
2,3hello
1,5世界

根据查询的关键字找出对应的Id编号的内容,再根据权重展示其数据。这种查询方式为倒排索引,也称全文检索。

分布式搜索:分布式索引,还是解决单机存储数据过大后的性能问题, 同步数据分节点存储,提升查询的性能。

ES存储原理之存储方式: 存储的表称为Index,其中的一条数据称为document 数据样例如下

idtitlecontent
1好看好看的人,千篇一律
2有趣有趣的灵魂,万里挑一
1不懂你不懂,但是,可以这样拉
会被按倒排索引的方式存入其中

ES存储原理之分布式:根据节点数量尽可能均衡分布数据,达到性能最优;数据分片(Shard)数量默认5个;

ES数据可靠性:将primary Shard 对应Replica shard 副本,同时确保primary分片及其Replica分片不在同一个ES节点上。有效提高数据的可靠性。副本(Replica,默认1)