什么是elasticsearch？ ：一个开源的分布式搜索引擎，可以用来实现搜索、日志统计、分析、系统监控等功能
什么是elastic stack（ELK）？：是以elasticsearch为核心的技术栈，包括beats、Logstash、kibana、elasticsearch
什么是Lucene？：是Apache的开源搜索引擎类库，提供了搜索引擎的核心API

正向索引和倒排索引

elasticsearch采用倒排索引：
文档（document）：每条数据就是一个文档
词条（term）：文档按照语义分成的词语

倒排索引中包含两部分内容：

词条词典（Term Dictionary）：记录所有词条，以及词条与倒排列表（Posting List）之间的关系，会给词条创建索引，提高查询和插入效率
倒排列表（Posting List）：记录词条所在的文档id、词条出现频率、词条在文档中的位置等信息，文档id：用于快速获取文档，词条频率（TF）：文档在词条出现的次数，用于评分

正向索引：基于文档id创建索引。查询词条时必须先找到文档，而后判断是否包含词条 倒排索引：对文档内容分词，对词条创建索引，并记录词条所在文档的信息。查询时先根据词条查询到文档id，而后获取到文档

es安装

kibana安装

MySQL与es

架构：
Mysql：擅长事务类型操作，可以确保数据的安全和一致性
Elasticsearch：擅长海量数据的搜索、分析、计算

分词器

es在创建倒排索引时需要对文档分词；在搜索时，需要对用户输入内容分词。但默认的分词规则对中文处理并不友好

处理中文分词，一般会使用IK分词器。

ik分词器包含两种模式：

ik_smart：最少切分，粗粒度
ik_max_word：最细切分，细粒度

IK分词器安装

ik分词器-拓展词库

 要拓展ik分词器的词库，只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict"></entry>
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords"></entry>
	<!--用户可以在这里配置远程扩展字典 -->
	<!-- <entry key="remote_ext_dict">words_location</entry> -->
	<!--用户可以在这里配置远程扩展停止词字典-->
	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

创建对应文件添加词条

mapping属性

mapping是对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有： 1.字符串：text（可分词的文本）、keyword（精确值，例如：品牌、国家、ip地址）
2.数值：long、integer、short、byte、double、float、
3.布尔：boolean
4.日期：date
5.对象：object
6.地理坐标：
6.1：geo_point：由纬度（latitude）和经度（longitude）确定的一个点。例如："32.8752345, 120.2981576"
```
"location":{
    "type": "geo_point"
  },
  ```
  
```

6.2：geo_shape：有多个geo_point组成的复杂几何图形。例如一条直线，"LINESTRING (-77.03653 38.897676, -77.009051 38.889939)"

index：是否创建索引，默认为true
analyzer：使用哪种分词器
properties：该字段的子字段

字段拷贝(copy_to): 可以使用copy_to属性将当前字段拷贝到指定字段,例如：

 "name":{
        "type": "text",
        "analyzer": "ik_max_word",
        "copy_to": "all"
      },
 "all":{
        "type": "text",
        "analyzer": "ik_max_word"
      }

索引库操作

创建索引库

PUT /my_index
{
  "mappings": {
    "properties": {
      "info":{
        "type": "text",
        "analyzer": "ik_smart"
      },
      "email":{
        "type": "keyword",
        "index": false
      },
      "name":{
        "properties": {
          "firstname":{
            "type":"keyword"
          },
          "lastname":{
            "type":"keyword"
          }
        }
      }
    }
  }
}

查询索引库

GET /索引库名

删除索引库

DELETE /索引库名

修改索引库

索引库和mapping一旦创建无法修改，但是可以添加新的字段，语法如下：

PUT /my_index/_mapping
{
  "properties": {
    "age":{
      "type": "integer"
    }
  }
}

文档操作

添加文档

POST /my_index/_doc/1
{
  "info":"常山赵子龙",
  "email":"www.1234@aa.com",
  "name":{
    "firstname":"赵",
    "lastname":"云"
  }
}

删除文档

DELETE /my_index/_doc/1

查询文档

GET /my_index/_doc/1

修改文档

方式一：全量修改，会删除旧文档，添加新文档 （也可做添加文档）


PUT /my_index/_doc/1
{
  "info":"西楚霸王",
  "email":"www.1234@aa.com",
  "name":{
    "firstname":"项",
    "lastname":"羽"
  }
}

方式二：增量修改，修改指定字段值

POST /my_index/_update/1
{
  "doc":{
    "email":"xiangyu@aa.com"
  }
}

注意：
插入文档时，es会检查文档中的字段是否有mapping，如果没有则按照默认mapping规则来创建索引。
如果默认mapping规则不符合你的需求，一定要自己设置字段mapping

RestClient操作索引库

ES官方提供了各种不同语言的客户端，用来操作ES。这些客户端的本质就是组装DSL语句，通过http请求发送给ES。官方文档地址：https://www.elastic.co/guide/en/elasticsearch/client/index.html

初始化JavaRestClient

1.依赖

<properties>
    <java.version>1.8</java.version>
    <elasticsearch.version>7.12.1</elasticsearch.version>
</properties>


<dependency>
    <groupId>org.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
</dependency>

2.初始化RestHighLevelClient：

public class RestClientTest {
    private RestHighLevelClient client;

    @Test
    public void test01() {
        System.out.println(client);
    }

    @BeforeEach
    public void before() {
        this.client = new RestHighLevelClient(RestClient.builder(
                HttpHost.create("http://124.71.216.26:9200")
        ));
    }

    @AfterEach
    public void after() throws IOException {
        client.close();
    }
}

创建索引库

@Test
public void createIndex() throws IOException {
    // 1.创建Request对象
    CreateIndexRequest request = new CreateIndexRequest("hotel");
    // 2.请求参数：EsContants.Mapping.hotel  mapping的json格式字符串
    request.source(EsContants.Mapping.hotel, XContentType.JSON);
    // 3.发生请求
    client.indices().create(request, RequestOptions.DEFAULT);
}

删除索引库、判断索引库是否存在

@Test
public void deleteIndex() throws IOException {
    DeleteIndexRequest deleteIndexRequest = new DeleteIndexRequest("hotel");
    client.indices().delete(deleteIndexRequest, RequestOptions.DEFAULT);
}

@Test
public void ifExistsIndex() throws IOException {
    GetIndexRequest request = new GetIndexRequest("hotel");
    boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
    System.out.println(exists);
}

RestClient操作文档

初始化JavaRestClient(见上)

添加文档

例如：

@Test
public void createDoc() throws IOException {
    Hotel hotel = hotelService.getById(36934L);
    HotelDoc hotelDoc = new HotelDoc(hotel);
    IndexRequest request = new IndexRequest("hotel").id(hotelDoc.getId().toString());
    request.source(JSON.toJSONString(hotelDoc), XContentType.JSON);
    client.index(request, RequestOptions.DEFAULT);
}

查询文档

例如：

@Test
public void getDocById() throws IOException {
    GetRequest request = new GetRequest("hotel", "36934");
    GetResponse res = client.get(request, RequestOptions.DEFAULT);
    String hotelJson = res.getSourceAsString();
    HotelDoc hotelDoc = JSON.parseObject(hotelJson, HotelDoc.class);
    System.out.println(hotelDoc);
}

修改文档

修改文档数据有两种方式：

方式一：全量更新。再次写入id一样的文档，就会删除旧文档，添加新文档
方式二：局部更新。只更新部分字段，我们演示方式二

删除文档

批量添加文档

例如：

@Test
public void bulkAddDoc() throws IOException {
    BulkRequest request = new BulkRequest("hotel");
    List<Hotel> hotelList = hotelService.list();
    for(Hotel hotel: hotelList) {
        HotelDoc hotelDoc = new HotelDoc(hotel);
        request.add(new IndexRequest("hotel")
                .id(hotelDoc.getId().toString())
                .source(JSON.toJSONString(hotelDoc), XContentType.JSON));
    }
    client.bulk(request, RequestOptions.DEFAULT);
}

查询: /hotel/_search

DSL查询语法

DSL查询分类

DSL基本查询语法

全文索引查询

match查询

GET /hotel/_search
{
  "query": {
    "match": {
      "name": "外滩如家"
    }
  }
}

multi_match查询（字段越多性能越差）

GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query": "外滩三钻",
      "fields": ["starName","name"]
    }
    }
}

精确查询

term查询：根据词条精确匹配，一般搜索keyword类型、数值类型、布尔类型、日期类型字段

GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "上海"
      }
    }
  }
}

range查询：根据数值范围查询，可以是数值、日期的范围

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 100,
        "lte": 300
      }
    }
  }
}

地理查询

根据经纬度查询： geo_distance：查询到指定中心点小于某个距离值的所有文档

# geo_distance查询
GET /hotel/_search
{
  "query": {
    "geo_distance":{
      "distance":"15km",
      "location":"31.21,121.5"
    }
  }
}

es中的相关性打分算法

TF-IDF：在elasticsearch5.0之前，会随着词频增加而越来越大
BM25：在elasticsearch5.0之后，会随着词频增加而增大，但增长曲线会趋于水平

Function Score Query

function score query定义的三要素：

过滤条件：哪些文档要加分
算分函数：如何计算function score
加权方式：function score 与 query score如何运算

复合查询 Boolean Query

布尔查询是一个或多个查询子句的组合。子查询的组合方式有：

must：必须匹配每个子查询，类似“与”
should：选择性匹配子查询，类似“或”
must_not：必须不匹配，不参与算分，类似“非”
filter：必须匹配，不参与算分

GET /hotel/_search
{
 
GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "name": "如家"
          }
        }
      ],
      "must_not": [
        {
          "range": {
            "price": {
              "gte": 400
            }
          }
        }
      ],
      "filter": [
        {
          "geo_distance": {
            "distance": "10km",
            "location": {
              "lat": 32.21,
              "lon": 121.5
            }
          }
        }
      ]
    }
  }
}

搜索结果处理

排序

GET /hotel/_search
{
  "query": {
    "match_all": {}
  }
  , "sort": [
    {
      "score": "desc",
      "price": "asc"
    }
  ]
}

地理位置排序

GET /indexName/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "_geo_distance" : {
          "FIELD" : "纬度，经度",
          "order" : "asc",
          "unit" : "km"
      }
    }
  ]
}

分页

ES设定结果集查询的上限是10000

GET /hotel/_search
{
  "query": {
    "match_all": {}
  }
  , "sort": [
    {
      "price": "asc"
    }
  ],
  "from": 0,
  "size": 20
}

针对深度分页，ES提供了两种解决方案:

search after：分页时需要排序，原理是从上一次的排序值开始，查询下一页数据。官方推荐使用的方式。
scroll：原理将排序数据形成快照，保存在内存。官方已经不推荐使用。

高亮

将搜索结果中的关键字用标签标记出来
在页面中给标签添加css样式


# 默认搜索字段与高亮字段一致
GET /hotel/_search
{
  "query": {
    "match": {
      "all": "如家"
    }
  },
  "highlight": {
    "fields": {
      "name":{
        "require_field_match": "false"
      }
    }
  }
}

RestClient查询文档

快速入门

@Test
public void test01() throws IOException {
    SearchRequest request = new SearchRequest("hotel");
    request.source().query(QueryBuilders.matchAllQuery());
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    SearchHits searchHits = response.getHits();
    TotalHits toatl = searchHits.getTotalHits();
    System.out.println(toatl);
    SearchHit[] hits = searchHits.getHits();
    for(SearchHit searchHit: hits) {
        String hitJson = searchHit.getSourceAsString();
        HotelDoc hotelDoc = JSON.parseObject(hitJson, HotelDoc.class);
        System.out.println(hotelDoc);
    }

}

全文索引

// 单字段匹配
request.source().query(QueryBuilders.matchQuery("name", "如家"));

// 多字段匹配
request.source().query(QueryBuilders.multiMatchQuery("如家", "name", "business"));

例如：

@Test
public void test01() throws IOException {
    SearchRequest request = new SearchRequest("hotel");
    request.source().query(QueryBuilders.matchQuery("name", "如家"));
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    handlerResponse(response);
}

精确查询

// 字条查询
request.source().query(QueryBuilders.termQuery("city","杭州"));

// 范围查询
request.source().query(QueryBuilders.rangeQuery("price").lte(250));

复合查询

// 创建布尔查询
BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
// 添加must条件
boolQuery.must(QueryBuilders.matchQuery("name", "如家"));
// 添加filter条件
boolQuery.filter(QueryBuilders.rangeQuery("price").lte(250));
//
request.source().query(boolQuery);

排序&分页

// 排序
request.source().sort("price", SortOrder.ASC);
// 分页
request.source().from(1).size(5);

地理位置距离排序：

高亮显示

// 高亮
request.source().highlighter(new HighlightBuilder()
        .field("name").requireFieldMatch(false));

高亮结果集处理：

private void handlerResponse(SearchResponse response) {
    SearchHits searchHits = response.getHits();
    TotalHits toatl = searchHits.getTotalHits();
    System.out.println(toatl);
    SearchHit[] hits = searchHits.getHits();
    for(SearchHit searchHit: hits) {
        String hitJson = searchHit.getSourceAsString();
        HotelDoc hotelDoc = JSON.parseObject(hitJson, HotelDoc.class);
        // 高亮结果集处理
        Map<String, HighlightField> highlightFields = searchHit.getHighlightFields();
        if(!CollectionUtils.isEmpty(highlightFields)) {
            HighlightField highlightField = highlightFields.get("name");
            if(highlightField != null) {
                String highName = highlightField.getFragments()[0].string();
                hotelDoc.setName(highName);
            }
        }
        System.out.println(hotelDoc);
    }
}

数据聚合

桶（Bucket）聚合：用来对文档做分组
TermAggregation：按照文档字段值分组
Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组
度量（Metric）聚合：用以计算一些值，比如：最大值、最小值、平均值等 Avg：求平均值
Max：求最大值
Min：求最小值
Stats：同时求max、min、avg、sum等
管道（pipeline）聚合：其它聚合的结果为基础做聚合

参与聚合的字段类型必须是： keyword, 数值, 日期, 布尔,

DSL实现Bucket聚合

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200
      }
    }
  },
  "size": 0,
  "aggs": {
    "brandAggs": {
      "terms": {
        "field": "price",
        "size": 20,
        "order": {
          "_count": "asc"
        }
      }
    }
  }
}

DSL实现metric聚合

GET /hotel/_search
{
  "size": 0, 
  "aggs": {
    "priceAggs": {
      "terms": {
        "field": "price",
        "size": 20,
        "order": {
          "score_status.avg": "desc"
        }
      },
      "aggs": {
        "score_status": {
          "stats": {
            "field": "score"
          }
        }
      }
    }
  }
}

elasticsearch分布式搜索引擎

正向索引和倒排索引

es安装

kibana安装

MySQL与es

分词器

IK分词器安装

ik分词器-拓展词库

mapping属性

索引库操作

创建索引库

查询索引库

删除索引库

修改索引库

文档操作

添加文档

删除文档

查询文档

修改文档

RestClient操作索引库

初始化JavaRestClient

创建索引库

删除索引库、判断索引库是否存在

RestClient操作文档

初始化JavaRestClient(见上)

添加文档

查询文档

修改文档

删除文档

批量添加文档

DSL查询语法

DSL查询分类

全文索引查询

精确查询

地理查询

es中的相关性打分算法

Function Score Query

复合查询 Boolean Query

搜索结果处理

排序

分页

高亮

RestClient查询文档

快速入门

全文索引

精确查询

复合查询

排序&分页

高亮显示

数据聚合

DSL实现Bucket聚合

DSL实现metric聚合