初识ElasticSearch-Query DSL查询②Query DSL官网地址 https://www.elasti

Query DSL官网地址 www.elastic.co/guide/en/el…

ElasticSearch查询主要分为URI Search和Query DSL，又以Query DSL语法为主，所以需要重点掌握。

为啥需要QueryDSL

query string 主要针对比较简单的搜索，搜索条件越复杂，越难以满足需求。

GET http://localhost:9200/test/_search?q=name:张三&size=10&from=0&sort=age:desc

DSL介绍

Domain Specific Language：领域特定语言

Elasticsearch基于JSON提供完整的查询DSL来定义查询。

一个查询可由两部分字句构成：

Leaf query clauses 叶子查询字句：Leaf query clauses 在指定的字段上查询指定的值，如：match、term or range queries. 叶子字句可以单独使用。
Compound query clauses 复合查询字句：以逻辑方式组合多个叶子、复合查询为一个查询。

一个查询字句的行为取决于它是用在query context 还是 filter context 中：

Query context 查询上下文：用在查询上下文中的字句回答“这个文档有多匹配这个查询?”。除了决定文档是否匹配，字句匹配的文档还会计算一个字句评分，来评定文档有多匹配，会参与相关性评分。查询上下文由 query 元素表示。
Filter context 过滤上下文：过滤上下文由 filter 元素或 bool 中的 must not 表示。用在过滤上下文中的字句回答“这个文档是否匹配这个查询？”，不参与相关性评分。被频繁使用的过滤器将被ES自动缓存，来提高查询性能。

如下语句：

GET http://localhost:9200/test/_search
{
  "query": { 
    "bool": { 
      "must": [
        { "match": { "name":   "张三"        }}, 
        { "match": { "addr": "长沙" }}  
      ],
      "filter": [ 
        { "term":  { "status": 1 }}, 
        { "range": { "time": { "gte": "2023-01-01" }}} 
      ]
    }
  }
}

同样是按条件匹配，filter不统计相关度，must统计相关度
must比filter计算更复杂，更耗时

相当于MySQL

select * from test where name='张三' and addr = '长沙' and status=1 and time>='2023-01-01'

query

全文检索的标准查询，它可以对一个字段进行模糊、短语查询。 query match 接收 text/numerics/dates, 对它们进行分词分析, 再组织成一个boolean查询。可通过operator 指定bool组合操作（or、and 默认是 or ），以及minimum_should_match 指定至少需多少个should(or)字句需满足。还可用ananlyzer指定查询用的特殊分析器。


GET  http://localhost:9200/test/_search 
{
    "query" : {
        "match" : {
            "name" : "张三"
        }
    }
}

相当于MySQL

select * from test where name='张' and addr = '长沙' and status=1 and time>='2023-01-01'

执行查询：

# addr 分词默认是用 or 连接
GET  http://localhost:9200/test/_search 
{
    "query" : {
        "match" : {
            "addr" : "长沙"
        }
    }
}
# 分此后指定 and 连接
GET http://localhost:9200/test/_search 
{
  "query": {
    "match" : {
      "addr" : {
        "query" : "长沙",
        "operator": "and"
      }
    }
  }
}

模糊查询，指定fuzziness

最大编辑数为2，说明query字符串中分词后，每个词允许编辑两次单个字符，可删除、新增、修改字符。
fuzziness 参数可以被设置为 AUTO，此时字符串只有 1 到 2 个字符时是 0；字符串有 3 、4 或者 5 个字符时是 1；字符串大于 5 个字符时是 2。
有时编辑距离 2 仍然是太多了，返回的结果似乎并不相关。把最大fuzziness设置为1 ，可以得到更好的结果和更好的性能。

GET http://localhost:9200/test/_search
{
  "query": {
    "match": {
      "description": {
        "addr": "长沙岳麓高新区",
        "fuzziness": 1
      }
    }
  }
}

模糊查询fuzziness的说明，可见官网：[www.elastic.co/guide/cn/el…] 可以使用minimum_should_match指定最少匹配需要满足几个词：

GET http://localhost:9200/test/_search
{
  "query": {
    "match": {
      "description": {
        "addr": "长沙岳麓高新区",
        "fuzziness": 2,
        "minimum_should_match": 2
      }
    }
  }
}

还可用max_expansions 指定模糊匹配的最大词项数，默认是50。比如：反向索引中有 100 个词项与 长沙 模糊匹配，只选用前50 个。

GET http://localhost:9200/test/_search
{
  "query": {
    "match": {
      "description": {
        "addr": "长沙高新技术",
        "fuzziness": 2,
        "minimum_should_match": 2,
        "max_expansions": 50 
      }
    }
  }
}

match_phrase query

match_phrase查询分析文本并根据分析的文本创建一个短语查询。 match_phrase 会将检索关键词分词。match_phrase的分词结果必须在被检索字段的分词中都包含，而且顺序必须相同， 而且默认必须都是连续的。

GET http://localhost:9200/test/_search
{
  "query": {
    "match_phrase": {
      "addr": "长沙高新"
    }
  }
}

相当于MySQL

select * from test where addr = '长沙高新'

可以通过slop参数来控制单词之间的允许间隔参阅slop用法

GET http://localhost:9200/test/_search
{
  "query": {
    "match_phrase": {
      "description": {
        "addr": "长沙技术",
        "slop": 3
      }
    }
  }
}

match phrase prefix query

match_phrase_prefix 在 match_phrase 的基础上支持对短语的最后一个词进行前缀匹配

查询新开头的：

GET http://localhost:9200/test/_search
{
  "query": {
    "match_phrase_prefix" : {
      "addr" : "长沙高新"
    }
  }
}

相当于MySQL

select * from test where addr = '长沙高新' and addr like '%新%'

指定前缀匹配选用的最大词项数量：

GET http://localhost:9200/test/_search
{
  "query": {
    "match_phrase_prefix" : {
      "message" : {
        "addr" : "长沙",
        "max_expansions" : 10
      }
    }
  }
}

multi match query

如果你需要在多个字段上进行文本搜索，可用multi_match

GET http://localhost:9200/test/_search
{
  "query": {
    "multi_match": {
      "query": "长沙",
      "fields": ["name", "description"]
    }
  }
}

还可以使用*表示匹配多个字段：

GET http://localhost:9200/test/_search
{
  "query": {
    "multi_match": {
      "query": "java程序员",
      "fields": ["name*", "desc*"]
    }
  }
}

query string query

query_string 查询，让我们可以直接用lucene查询语法写一个查询串进行查询，ES中接到请求后，通过查询解析器解析查询串生成对应的查询。使用它要求掌握lucene的查询语法。

GET http://localhost:9200/test/_search
{
    "query": {
        "query_string" : {
            "default_field" : "addr",
            "query" : "长沙高新区"
        }
    }
}

query_string支持多字段匹配

GET http://localhost:9200/test/_search
{
  "query": {
    "query_string" : {
      "fields" : ["description", "name"],
      "query" : "java 程序员 spring"
    }
  }
}

可与query同用的参数，如 default_field、fields，及query 串的语法请参考：
[www.elastic.co/guide/en/el…]

simple query string query

simple_query_string 查同 query_string 查询一样用lucene查询语法写查询串，较query_string不同的地方：更小的语法集；查询串有错误，它会忽略错误的部分，不抛出错误。更适合给用户使用。如下: fileds写错但是不报错，查不出数据

GET http://localhost:9200/test/_search
{
  "query": {
    "simple_query_string" : {
        "query": "中国" +(长沙 | 岳麓) -高兴",
        "fields": ["what^5", "haha$"], 
        "default_operator": "and"
    }
  }
}

语法请参考：
[www.elastic.co/guide/en/el…]

词项查询

官网：[www.elastic.co/guide/en/el…]

term query

term 查询用于查询指定字段包含某个词项的文档。

GET http://localhost:9200/test/_search
{
  "query": {
    "term": {
      "name": "张三"
    }
  }
}

terms query

terms 查询用于查询指定字段包含某些词项的文档。

GET http://localhost:9200/test/_search
{
  "query": { 
    "terms": { 
      "addr": [ 
        "长沙", 
        "where", 
        "cs" 
      ]
    }
  }
}

Terms 查询支持嵌套查询的方式来获得查询项，相当于 in (select * from test where addr in)

range query

范围查询

gte：大于等于
gt：大于
lte：小于等于
lt：小于
boost：查询权重

GET http://localhost:9200/test/_search
{
  "query": {
    "range": {
      "age": {
        "gte": 20,
        "lte": 50,
        "boost" : 2.0
      }
    }
  }
}

时间范围查询

now-1d/d   #当前时间减1天后转成天数
now/d      #当前时间转成天数
GET http://localhost:9200/test/_search
{
    "query": {
        "range" : {
            "time" : {
                "gte" : "now-1d/d", 
                "lt" :  "now/d"  
            }
        }
    }
}

指定时间格式查询

GET http://localhost:9200/test/_search
{
    "query": {
        "range" : {
            "time" : {
                "gte": "01/01/2022",
                "lte": "2023",
                "format": "dd/MM/yyyy||yyyy"
            }
        }
    }
}

时间舍入||说明：

gt：大于的情况下，四舍五入，比如2022-01-18||/M变成2022-01-31T23:59:59:999，不包含整个月。

gte：大于等于的情况下，向下取整，比如2022-01-18||/M变成2022-01-01，包含整个月。

lt：小于的情况下，向下取整，比如2022-01-18||/M变成2022-01-01，不包含整个月。

lte：小于等于的情况下，四舍五入，比如2022-01-18||/M变成2022-01-31T23:59:59:999，包含整个月。

时间数学计算规则请参考：
[www.elastic.co/guide/en/el…]

exits query

查询指定字段值不为空的数据

GET http://localhost:9200/test/_search
{
    "query": {
        "exists": {
            "field": "name"
        }
    }
}

prefix query 前缀查询

GET http://localhost:9200/test/_search
{
  "query": {
    "prefix": {
      "name": {
        "value": "张"
      }
    }
  }
}

GET http://localhost:9200/test/_search
{
  "query": {
    "prefix": {
      "name": "张"
    }
  }
}

wildcard query 通配符查询

GET http://localhost:9200/test/_search
{
  "query": {
    "wildcard" : { "name" : "张" }
  }
}

GET http://localhost:9200/test/_search
{
  "query": {
    "wildcard": { 
      "name" : {
        "value": "张",
        "boost": 2
      }
    }
  }
}

regexp query 正则查询

GET http://localhost:9200/test/_search
{
  "query": {
    "regexp":{
      "name": "张*s"
    }
  }
}

GET http://localhost:9200/test/_search
{
  "query": {
    "regexp": {
      "addr": {
        "value": "长*区",
        "flags" : "ALL",
        "max_determinized_states": 10000,
        "rewrite": "constant_score"
      }
    }
  }
}

正则语法参考：[www.elastic.co/guide/en/el…]

fuzzy query 模糊查询

返回包含与搜索词类似的词的文档，该词由Levenshtein编辑距离度量。

包括以下几种情况：

更改角色（box→fox）
删除字符（aple→apple）
插入字符（sick→sic）
调换两个相邻字符（ACT→CAT）

GET http://localhost:9200/test/_search
{
  "query": {
    "fuzzy": {
      "name": {
      "value": "张"
      }
    }
  }
}

GET http://localhost:9200/test/_search
{
  "query": {
    "fuzzy" : {
      "name" : {
        "value": "z",
        "boost": 1.0,
        "fuzziness": 2,
        "prefix_length": 0,
        "max_expansions": 10
      }
    }
  }
}

ids 根据文档id查询

GET http://localhost:9200/test/_search
{
  "query": {
    "ids" : {
      "values" : ["1", "4", "10"]
    }
  }
}

Filter

filter与query示例

需求：查询addr中有"长沙"，并且age大于20小于30的数据。

GET http://localhost:9200/test/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "addr": "长沙"
          }
        },
        {
          "range": {
            "age": {
              "gte": 20,
              "lte": 30
            }
          }
        }
      ]
    }
  }
}

使用filter:

GET http://localhost:9200/test/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "addr": "长沙"
          }
        }
      ],
      "filter": {
        "range": {
          "age": {
            "gte": 20,
             "lte": 30
          }
        }
      }
    }
  }
}

filter与query对比

filter：仅仅只是按照搜索条件过滤出需要的数据而已，不计算任何相关度分数，对相关度没有任何影响。
query：会去计算每个document相对于搜索条件的相关度，并按照相关度进行排序。

应用场景：
一般来说，如果你是在进行搜索，需要将最匹配搜索条件的数据先返回，那么用query 如果你只是要根据一些条件筛选出一部分数据，不关注其排序，那么用filter。

filter与query性能

filter：不需要计算相关度分数，不需要按照相关度分数进行排序，同时还有内置的自动cache最常使用filter的数据。
query：相反，要计算相关度分数，按照分数进行排序，而且无法cache结果。范围查询，keyword关键字查询。

定位错误语法

验证错误语句：

GET http://localhost:9200/test/_validate/query?explain
{
  "query": {
    "matcher": {
      "addr": "长沙"
    }
  }
}

{
  "valid" : false,
  "error" : "org.elasticsearch.common.ParsingException: no [query] registered for [matcher]"
}

正确：

GET http://localhost:9200/test/_validate/query?explain
{
  "query": {
    "match": {
      "addr": "长沙"
    }
  }
}

一般用在那种特别复杂庞大的搜索下，这个时候可以先用validate api去验证一下，搜索是否合法。

合法以后，explain就像mysql的执行计划，可以看到搜索的目标等信息。

定制排序规则

默认排序规则

默认情况下，是按照_score降序排序的。

然而，某些情况下，可能没有用到_score，比如说filter。

但是query里面直接写filter会报错，这时就用到了constant_score。

只过滤的正确写法：

GET http://localhost:9200/test/_search 
{
  "query": {
    "constant_score": {
      "filter" : {
            "term" : {
                "addr" : "长"
            }
        }
    }
  }
}

定制排序规则

相当于sql中order by age asc

GET http://localhost:9200/test/_search 
{
  "query": {
    "constant_score": {
      "filter" : {
            "term" : {
                "addr" : "长"
            }
        }
    }
  },
  "sort": [
    {
      "age": {
        "order": "asc"
      }
    }
  ]
}

Scroll分批查询

场景：下载某一个索引中1亿条数据，到文件或是数据库。

不能一下全查出来，系统内存溢出。所以使用scoll滚动搜索技术，一批一批查询。

scoll搜索会在第一次搜索的时候，保存一个当时的视图快照，之后只会基于该旧的视图快照提供数据搜索，如果这个期间数据变更，是不会让用户看到的。

每次发送scroll请求，我们还需要指定一个scoll参数，指定一个时间窗口，每次搜索请求只要在这个时间窗口内能完成就可以了。

搜索

GET http://localhost:9200/test/_search?scroll=1m
{
  "query": {
    "match_all": {}
  },
  "size": 3
}

{
  "_scroll_id" : "FGluY2x1ZGVfY29udGV4dF91dWlkDnF1ZXJ5VGhlbkZldGNoBRZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAscWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAsUWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAsgWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAsYWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAskWVTUwc1pURDFSRjYxajBveGUxVkFnZw",
  "took" : 3,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
}

获得的结果会有一个scoll_id，下一次再发送scoll请求的时候，必须带上这个scoll_id

GET http://localhost:9200/test/scroll
{
    "scroll": "1m", 
    "scroll_id" : "FGluY2x1ZGVfY29udGV4dF91dWlkDnF1ZXJ5VGhlbkZldGNoBRZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAscWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAsUWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAsgWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAsYWVTUwc1pURDFSRjYxajBveGUxVkFnZxZ0TUV3MWxQT1FhdW85blhUMzV5T3dRAAAAAAAAAskWVTUwc1pURDFSRjYxajBveGUxVkFnZw"
}

与分页区别：

分页给用户看的 deep paging
scroll是用户系统内部操作，如下载批量数据，数据转移。零停机改变索引映射。

复合查询

官网：[www.elastic.co/guide/en/el…]

bool query

复合查询就是指可以对多个字段过滤筛选，类比mysql的where多条件查询，es的复合查询包括Constant Score Query、Bool Query、Dis Max Query、Function Score Query、Boosting Query，这里详细说一说用的比较多的Bool Query。

Bool 查询用bool操作来组合多个查询字句为一个查询。可用的关键字：

must：根据must中的条件过滤文档，返回的结果文档必须严格匹配条件，会影响相关性算分。
filter：根据must中的条件过滤文档，返回的结果文档必须严格匹配条件，和must不同的是，filter不会影响相关性算分。
should：或，根据should中的条件进行筛选，返回的结果文档应该包含should的条件，影响相关性算分。
must_not：根据must_not中的条件过滤文档，返回的结果文档必须不包含must_not条件，会影响相关性算分，在filter上下文中执行，不参与、不影响评分

GET http://localhost:9200/test/_search
{
  "query": {
    "bool" : {
      "must" : {
        "term" : { "name" : "张" }
      },
      "filter": {
        "term" : { "name" : "张" }
      },
      "must_not" : {
        "range" : {
          "age" : { "gte" : 10, "lte" : 20 }
        }
      },
      "should" : [
        { "term" : { "addr" : "长沙" } },
        { "term" : { "addr" : "区" } }
      ],
      "minimum_should_match" : 4, # 表示命中4个词的文档才会返回
      "boost" : 1.0
    }
  }
}

1、must、must_not、should支持数组，同时filter的查询语句，es会对其进行智能缓存，因此执行效率较高，在不需要算分的查询语句中，可以考虑使用filter替代普通的query语句;
2、查询语句同时包含must和should时，可以不满足should的条件，因为must条件优先级高于should，但是如果也满足should的条件，则会提高相关性算分;
3、可以使用minimum_should_match参数来控制应当满足条件的个数或百分比;
4、must、must_not语句里面如果包含多个条件，则各个条件间是且的关系，而should的多个条件是或的关系。