ES 查询 hits 统计总数不准?默认最大值 10000
当我们使用 ES 的时候,有时会比较关心匹配到的文档总数是多少,所以在查询得到结果后会使用 hits.tatal.value 这个值作为匹配的总数,如下
{
"took" : 1,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 345,
"relation" : "gte"
},
"max_score" : null,
"hits" : [ ]
}
}
平常数据量不大的情况下你会觉得这个数值没问题呀,但是当超出 10000 个数据量的时候,这个 value 将不会增长了,固定为 10000。这个时候很显然你的数量统计就不准了。
ES 为我们准备了这样一个参数来开启精确匹配 track-total-hits
这个时候返回值将是精确的:
{
"took" : 3,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 12597,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
}
}
当然如果你的业务需求在超过 10000 这个阈值之后就不需要精准的计算的话,就不需要设置该值,毕竟匹配大量的文档是一个成本较高的操作,同样的如果你并不需要统计数量,那么将该值设置为 false "track_total_hits": false 也是一种优化检索效率的操作。
细心的同学应该注意到了我们设置 track_total_hits 为 true 的时候返回 relation 的值是不一样的
"relation" : "gte"
"relation" : "eq"
gte 表示 total.value 是查询匹配总命中数的下限。 eq 则表示 total.value 是准确计数。
你也可以设置 track_total_hits 为整数,来自定义上限如:
"track_total_hits": 20000,
我是 dying 搁浅 死亡搁浅的搁,死亡搁浅的浅。希望本文对你有所帮助。我们下篇文章再见。