Elasticsearch 桶聚合

680 阅读5分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

Elasticsearch 聚合查询

聚合是一种基于查询条件对数据进行分桶、计算的方法。

聚合可以嵌套,由此可以组合复杂的操作(Bucketing 聚合可以包含 sub-aggregation)。

聚合的三种分类:

  • Metric(指标聚合):
    • 对文档进行权值计算,输出结果既是权值。
    • 基于特定字段(field)或脚本值(generated using scripts)计算。
  • Bucketing(分桶聚合)
    • 对文档进行分组操作,把满足相关特性的文档分到一个桶里,即桶分。输出结果是包含多个文档的桶。
    • 基于一个关键字(field、script),以及一些桶分(分组)的判断条件进行聚合,符合条件的会分到对应的组(fall in)。
  • Pipeline(管道聚合):
    • 对其它聚合操作的输出以及关联指标进行聚合。
    • 此类聚合的作用对象大多是桶,而不是文档,是一种后期对每一个分桶的一些计算操作。

桶聚合查询

histogram 聚合(multi-bucket)

直方图聚合,基于文档中的某个【数值类型】字段,通过计算来动态的分桶。

计算如下:

rem = value % interval
if (rem < 0) {
    rem += interval
}
bucket_key = value - rem

参数:

  • field:字段,必须为数值类型
  • interval:分桶间距
  • min_doc_count:最少文档数桶过滤,只有不少于这么多文档的桶才会返回
  • extended_bounds:范围扩展
  • order:对桶排序,如果 histogram 聚合有一个权值聚合类型的"直接"子聚合,那么排序可以使用子聚合中的结果
  • offset:桶边界位移,默认从0开始
  • keyed:hash结构返回,默认以数组形式返回每一个桶
  • missing:配置缺省默认值
{
    "aggs" : {
        "prices" : {
            "histogram" : {
                "field" : "price",
                "interval" : 50,
                "min_doc_count" : 1,
                "extended_bounds" : {
                    "min" : 0,
                    "max" : 500
                },
                "order" : { "_count" : "desc" },
                "keyed":true,
                "missing":0
            }
        }
    }
}

Data Histogram 聚合(multi-bucket)

日期直方图聚合——基于日期类型,以【日期间隔】来桶分聚合。

可用的时间间隔类型为:

  • year、quarter、month、week、day、hour、minute、second
  • 其中,除了year、quarter 和 month,其余可用小数形式。

参数:

  • field:字段,必须为数值类型
  • interval:分桶间距
  • format:定义日期的格式,配置后会返回一个 key_as_string 的字符串类型日期(默认只有key)
  • time_zone:定义时区,用作时间值的调整
  • offset:桶边界位移,默认从0开始
  • missing:配置缺省默认值
{
    "aggs" : {
        "articles_over_time" : {
            "date_histogram" : {
                "field" : "date",
                "interval" : "month",
                "format" : "yyyy-MM-dd",
                "time_zone": "+08:00"
            }
        }
    }
}

Range 聚合(multi-bucket)

范围聚合——基于某个值(可以是 field 或 script),以【字段范围】来桶分聚合。

范围聚合包括 from 值,不包括 to 值(区间前闭后开)。

参数:

  • ranges:配置区间,数组,每一个元素是一个区间。例如:[{from:0}, {from:50, to:100}, {to:200}]
  • keyed:以一个关联的唯一字符串作为键,以 HASH 形式返回,而不是默认的数组
  • script:利用 script 执行结果替代普通的 field 值进行聚合。script可以用file给出,还可以对其它 field 进行求值计算。
{
    "aggs" : {
        "price_ranges" : {
            "range" : {
                "field" : "price",
                "ranges" : [                       //包含 3 个桶
                    { "to" : 50 },
                    { "from" : 50, "to" : 100 },
                    { "from" : 100 }
                ],
                "keyed" : true
            }
        }
    }
}

Date Range 聚合(multi-bucket)

日期范围聚合,基于日期类型的值,以【日期范围】来桶分聚合。

日期范围可以用各种 Date Math 表达式。

同样的,包括 from 的值,不包括 to 的值。

参数:

  • format:定义日期格式,配置后会返回一个 [to/from]_as_string 的字符串类型日期,默认是 to/from 的数值表示。
{
    "aggs": {
        "range": {
            "date_range": {
                "field": "date",
                "format": "MM-yyy",               
                "ranges": [                            //包含 3 个桶
                    { "to": "now-10M/M" }, 
                    { "from": "now-10M/M" },
                    {"from":"1970-1-1", "to":"2000-1-1"}
                ]
            }
        }
    }
}

terms 聚合(multi-bucket)

terms是一个分组聚合,其作用与关系型数据库中相同。

默认返回顺序是按照文档个数多少排序。

当不返回所有 buckets 的情况,文档个数可能不准确

参数:

  • size:size用来定义需要返回多个 buckets(防止太多),默认会全部返回。(注意,如果只返回部分buckets,统计的文档个数不一定准确(每个分片各自的top size个)。size 越大,count 会越精确。)
  • order:排序方式
  • min_doc_count:只返回文档个数不小于该值的 buckets
  • script:用基本来生成词元
  • include:包含过滤
  • exclude:排除过滤
  • execution_hint:
  • collect_mode:
  • missing:配置缺省默认值
GET /lib4/items/_search
{
    "size": 0,
    "aggs": {
        "price_of_by": {
            "terms": {
                "field": "price"
            }
        }
    }
}
	
# 对那些有唱歌兴趣的用户按年龄分组
GET /lib3/user/_search
{
    "query": {
        "match": {
            "interests": "changge"
        }
    },
    "size": 0,
    "aggs": {
        "agg_group_by": {
            "field": "age",
            "order": {
                "avg_of_age": "desc"
            }
        },
        "aggs": {
            "avg_of_age": {
                "age": {
                    "field": "age"
                }
            }
        }
    }
}

Filters 聚合(multi-bucket)

多过滤聚合,基于多个过滤条件,来对当前文档进行【过滤】的聚合,每个过滤都包含所有满足它的文档(多个bucket中可能重复)。

参数:

  • filters: 配置过滤条件,支持 HASH 或 数组格式
  • other_bucket: 是否计算不满足任何匹配条件的文档
  • other_bucket_key: 作为不匹配所有过滤条件的文档的 bucket 名称
{
  "aggs" : {
    "messages" : {
      "filters" : {
        "other_bucket_key": "other_messages",                //不在过滤条件范围内的文都归属于 other_messages 桶
        "filters" : {                                        //过滤条件
          "errors" :   { "term" : { "body" : "error"   }},   
          "warnings" : { "term" : { "body" : "warning" }}
        }
      },
      "aggs" : {
        "monthly" : {
          "histogram" : {
            "field" : "timestamp",
            "interval" : "1M"
          }
        }
      }
    }
  }
}

Filter 聚合(single-bucket)

过滤聚合,基于一个条件,来对当前的文档进行过滤的聚合。

{
    "aggs" : {
        "red_products" : {
            "filter" : { "term": { "color": "red" } },
            "aggs" : {
                "avg_price" : { "avg" : { "field" : "price" } }
            }
        }
    }
}

IPv4 Range 聚合(multi-bucket)

IP4聚合——基于一个 IPv4 字段,对文档进行【IPv4范围】的桶分聚合。

和 Range Aggregation 类似,只是应用字段必须是 IPv4 数据类型。

{
    "aggs" : {
        "ip_ranges" : {
            "ip_range" : {
                "field" : "ip",
                "ranges" : [                                //包含 3 个桶,各个桶之可能有文档重复
                    { "to" : "10.0.0.5" },
                    { "from" : "10.0.0.5" },
                    { "from":"1.1.1.1", "to" : "10.0.0.5" },
                ]
            }
        }
    }
}

Nested 聚合(single-bucket)

嵌套类型聚合,基于嵌套(nested)数据类型,把该【嵌套类型的信息】聚合到单个桶里,然后就可以对嵌套类型做进一步的聚合操作。

// resellers 是一个嵌套类型
{
    ...
    "product" : {
        "properties" : {
            "resellers" : { 
                "type" : "nested",
                "properties" : {
                    "name" : { "type" : "string" },
                    "price" : { "type" : "double" }
                }
            }
        }
    }
}

// 对 nested 对象里面的信息做其它聚合操作
{
    "query" : {
        "match" : { "name" : "led tv" }
    },
    "aggs" : {
        "resellers" : {
            "nested" : {                           //"嵌套类型聚合"把所有嵌套信息都包含在单一的桶里,以供进一步处理
                "path" : "resellers"
            },
            "aggs" : {
                "min_price" : { "min" : { "field" : "resellers.price" } }   //对嵌套类型聚合输出的桶做进一步处理,这里是计算其 price 的 average
            }
        }
    }
}