Elasticsearch笔记第二十五篇Elasticsearch核心知识篇(59) 初识搜索引擎_搜索相关参数梳理以及

Elasticsearch核心知识篇(59)

初识搜索引擎_搜索相关参数梳理以及bouncing results问题解决方案

preference

决定了哪些shard会被用来执行搜索操作

_primary：只打到primary shard上去

_primary_first：优先打到primary shard上去

_local：暂不解释
_only_node：限定唯一node进行搜索
_prefer_node：暂不解释
_shards：暂不解释

bouncing results问题

两个document排序，field值相同；不同的shard上，可能排序不同；每次请求轮询打到不同的replica shard上；每次页面上看到的搜索结果的排序都不一样。这就是bouncing result，也就是跳跃的结果。

搜索的时候，是轮询将搜索请求发送到每一个replica shard（primary shard），但是在不同的shard上，可能document的排序不同

解决方案

将preference设置为一个字符串，比如说user_id，让每个user每次搜索的时候，都使用同一个replica shard去执行，就不会看到bouncing results了

timeout

timeout，已经讲解过原理了，主要就是限定在一定时间内，将部分获取到的数据直接返回，避免查询耗时过长

routing

document文档路由，_id路由，routing=user_id，这样的话可以让同一个user对应的数据到一个shard上去

search_type

default：query_then_fetch
dfs_query_then_fetch，可以提升revelance sort精准度

Elasticsearch核心知识篇(60)

初识搜索引擎_上机动手实战基于scoll技术滚动搜索大量数据

如果一次性要查出来比如10万条数据，那么性能会很差，此时一般会采取用scoll滚动查询，一批一批的查，直到所有数据都查询完处理完

使用scoll滚动搜索，可以先搜索一批数据，然后下次再搜索一批数据，以此类推，直到搜索出全部的数据来 scoll搜索会在第一次搜索的时候，保存一个当时的视图快照，之后只会基于该旧的视图快照提供数据搜索，如果这个期间数据变更，是不会让用户看到的 采用基于_doc进行排序的方式，性能较高 每次发送scroll请求，我们还需要指定一个scoll参数，指定一个时间窗口，每次搜索请求只要在这个时间窗口内能完成就可以了

 GET /weblalala/article/_search?scroll=1m
 {
   "query": {
     "match_all": {}
   },
   "sort": [ "_doc" ],
   "size": 2
 }
 
 {
   "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAxZFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMWBZ3ODVQdTBmdFM3LXZyWk93bWRBRTlnAAAAAAAADFcWdzg1UHUwZnRTNy12clpPd21kQUU5ZwAAAAAAAAxWFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMWhZ3ODVQdTBmdFM3LXZyWk93bWRBRTln",
   "took": 3,
   "timed_out": false,
   "_shards": {
     "total": 5,
     "successful": 5,
     "failed": 0
   },
   "hits": {
     "total": 3,
     "max_score": null,
     "hits": [
       {
         "_index": "weblalala",
         "_type": "article",
         "_id": "2",
         "_score": null,
         "_source": {
           "title": "second article",
           "content": "this is my second article",
           "post_date": "2017-01-02",
           "author_id": 110
         },
         "sort": [
           0
         ]
       },
       {
         "_index": "weblalala",
         "_type": "article",
         "_id": "1",
         "_score": null,
         "_source": {
           "title": "first article",
           "content": "this is my first article",
           "post_date": "2017-01-01",
           "author_id": 110
         },
         "sort": [
           0
         ]
       }
     ]
   }
 }

获得的结果会有一个scoll_id，下一次再发送scoll请求的时候，必须带上这个scoll_id

 GET /_search/scroll   # 注意这个地方不用加上index和type 在参数中带上上次的scroll_id即可完成接下来的查询
 {
   "scroll":"1m",
   "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAzPFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMzBZ3ODVQdTBmdFM3LXZyWk93bWRBRTlnAAAAAAAADM0Wdzg1UHUwZnRTNy12clpPd21kQUU5ZwAAAAAAAAzOFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAM0BZ3ODVQdTBmdFM3LXZyWk93bWRBRTln"
 }
 
 {
   "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAzPFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMzBZ3ODVQdTBmdFM3LXZyWk93bWRBRTlnAAAAAAAADM0Wdzg1UHUwZnRTNy12clpPd21kQUU5ZwAAAAAAAAzOFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAM0BZ3ODVQdTBmdFM3LXZyWk93bWRBRTln",
   "took": 34,
   "timed_out": false,
   "terminated_early": true,
   "_shards": {
     "total": 5,
     "successful": 5,
     "failed": 0
   },
   "hits": {
     "total": 3,
     "max_score": null,
     "hits": [
       {
         "_index": "weblalala",
         "_type": "article",
         "_id": "3",
         "_score": null,
         "_source": {
           "title": "thrid article",
           "content": "this is my thrid article",
           "post_date": "2017-01-03",
           "author_id": 110
         },
         "sort": [
           0
         ]
       }
     ]
   }
 }

scoll，看起来挺像分页的，但是其实使用场景不一样

分页主要是用来一页一页搜索，给用户看的；

scoll主要是用来一批一批检索数据，让系统进行处理的