Elasticsearch核心知识篇(59)
初识搜索引擎_搜索相关参数梳理以及bouncing results问题解决方案
preference
决定了哪些shard会被用来执行搜索操作
- _primary:只打到primary shard上去
- _primary_first:优先打到primary shard上去
- _local:暂不解释
- _only_node:限定唯一node进行搜索
- _prefer_node:暂不解释
- _shards:暂不解释
bouncing results问题
- 两个document排序,field值相同;不同的shard上,可能排序不同;每次请求轮询打到不同的replica shard上;每次页面上看到的搜索结果的排序都不一样。这就是bouncing result,也就是跳跃的结果。
- 搜索的时候,是轮询将搜索请求发送到每一个replica shard(primary shard),但是在不同的shard上,可能document的排序不同
解决方案
- 将preference设置为一个字符串,比如说user_id,让每个user每次搜索的时候,都使用同一个replica shard去执行,就不会看到bouncing results了
timeout
timeout,已经讲解过原理了,主要就是限定在一定时间内,将部分获取到的数据直接返回,避免查询耗时过长
routing
document文档路由,_id路由,routing=user_id,这样的话可以让同一个user对应的数据到一个shard上去
search_type
- default:query_then_fetch
- dfs_query_then_fetch,可以提升revelance sort精准度
Elasticsearch核心知识篇(60)
初识搜索引擎_上机动手实战基于scoll技术滚动搜索大量数据
如果一次性要查出来比如10万条数据,那么性能会很差,此时一般会采取用scoll滚动查询,一批一批的查,直到所有数据都查询完处理完
使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来 scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的 采用基于_doc进行排序的方式,性能较高 每次发送scroll请求,我们还需要指定一个scoll参数
,指定一个时间窗口,每次搜索请求只要在这个时间窗口内能完成就可以了
GET /weblalala/article/_search?scroll=1m
{
"query": {
"match_all": {}
},
"sort": [ "_doc" ],
"size": 2
}
{
"_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAxZFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMWBZ3ODVQdTBmdFM3LXZyWk93bWRBRTlnAAAAAAAADFcWdzg1UHUwZnRTNy12clpPd21kQUU5ZwAAAAAAAAxWFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMWhZ3ODVQdTBmdFM3LXZyWk93bWRBRTln",
"took": 3,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 3,
"max_score": null,
"hits": [
{
"_index": "weblalala",
"_type": "article",
"_id": "2",
"_score": null,
"_source": {
"title": "second article",
"content": "this is my second article",
"post_date": "2017-01-02",
"author_id": 110
},
"sort": [
0
]
},
{
"_index": "weblalala",
"_type": "article",
"_id": "1",
"_score": null,
"_source": {
"title": "first article",
"content": "this is my first article",
"post_date": "2017-01-01",
"author_id": 110
},
"sort": [
0
]
}
]
}
}
获得的结果会有一个scoll_id,下一次再发送scoll请求的时候,必须带上这个scoll_id
GET /_search/scroll # 注意这个地方不用加上index和type 在参数中带上上次的scroll_id即可完成接下来的查询
{
"scroll":"1m",
"scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAzPFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMzBZ3ODVQdTBmdFM3LXZyWk93bWRBRTlnAAAAAAAADM0Wdzg1UHUwZnRTNy12clpPd21kQUU5ZwAAAAAAAAzOFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAM0BZ3ODVQdTBmdFM3LXZyWk93bWRBRTln"
}
{
"_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAzPFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAMzBZ3ODVQdTBmdFM3LXZyWk93bWRBRTlnAAAAAAAADM0Wdzg1UHUwZnRTNy12clpPd21kQUU5ZwAAAAAAAAzOFnc4NVB1MGZ0UzctdnJaT3dtZEFFOWcAAAAAAAAM0BZ3ODVQdTBmdFM3LXZyWk93bWRBRTln",
"took": 34,
"timed_out": false,
"terminated_early": true,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 3,
"max_score": null,
"hits": [
{
"_index": "weblalala",
"_type": "article",
"_id": "3",
"_score": null,
"_source": {
"title": "thrid article",
"content": "this is my thrid article",
"post_date": "2017-01-03",
"author_id": 110
},
"sort": [
0
]
}
]
}
}
scoll,看起来挺像分页的,但是其实使用场景不一样
- 分页主要是用来一页一页搜索,给用户看的;
- scoll主要是用来一批一批检索数据,让系统进行处理的