Elasticsearch笔记第二十八篇

225 阅读4分钟

Elasticsearch核心知识篇(65)

索引管理_定制化自己的dynamic mapping策略

定制dynamic策略

  • true:遇到陌生字段,就进行dynamic mapping
  • false:遇到陌生字段,就忽略
  • strict:遇到陌生字段,就报错
 PUT /my_index
 {
   "mappings": {
     "my_type": {
       "dynamic": "strict",
       "properties": {
         "title": {
           "type": "text"
         },
         "address": {
           "type": "object",
           "dynamic": "true"
         }
       }
     }
   }
 }
  • 示例数据
 PUT /my_index/my_type/1
 {
   "title": "my article",
   "content": "this is my article",   # 没见过的字段
   "address": {
     "province": "guangdong",
     "city": "guangzhou"
   }
 }
 
 {
   "error": {
     "root_cause": [
       {
         "type": "strict_dynamic_mapping_exception",
         "reason": "mapping set to strict, dynamic introduction of [content] within [my_type] is not allowed"
       }
     ],
     "type": "strict_dynamic_mapping_exception",
     "reason": "mapping set to strict, dynamic introduction of [content] within [my_type] is not allowed"
   },
   "status": 400
 }
 
 PUT /my_index/my_type/1
 {
   "title": "my article",
   "address": {
     "province": "guangdong",
     "city": "guangzhou"
   }
 }
 
 {
   "_index": "my_index",
   "_type": "my_type",
   "_id": "1",
   "_version": 1,
   "result": "created",
   "_shards": {
     "total": 2,
     "successful": 1,
     "failed": 0
   },
   "created": true
 }
  • 查看数据
 GET /my_index/_mapping/my_type
 
 {
   "my_index": {
     "mappings": {
       "my_type": {
         "dynamic": "strict",
         "properties": {
           "address": {
             "dynamic": "true",
             "properties": {
               "city": {
                 "type": "text",
                 "fields": {
                   "keyword": {
                     "type": "keyword",
                     "ignore_above": 256
                   }
                 }
               },
               "province": {
                 "type": "text",
                 "fields": {
                   "keyword": {
                     "type": "keyword",
                     "ignore_above": 256
                   }
                 }
               }
             }
           },
           "title": {
             "type": "text"
           }
         }
       }
     }
   }
 }

定制dynamic mapping策略

  • date_detection

默认会按照一定格式识别date,比如yyyy-MM-dd。但是如果某个field先过来一个2017-01-01的值,就会被自动dynamic mapping成date,后面如果再来一个"hello world"之类的值,就会报错。可以手动关闭某个type的date_detection,如果有需要,自己手动指定某个field为date类型。

 PUT /my_index/_mapping/my_type
 {
     "date_detection": false
 }
  • 定制自己的dynamic mapping template(type level)
 PUT /my_index
 {
     "mappings": {
         "my_type": {
             "dynamic_templates": [
                 { "en": {
                       "match":              "*_en", 
                       "match_mapping_type": "string",
                       "mapping": {
                           "type":           "string",
                           "analyzer":       "english"
                       }
                 }}
             ]
 }}}
  • 示例数据
 PUT /my_index/my_type/1
 {
   "title": "this is my first article"
 }
 
 PUT /my_index/my_type/2
 {
   "title_en": "this is my first article"
 }
 
 GET /my_index/_mapping/my_type
 
 {
   "my_index": {
     "mappings": {
       "my_type": {
         "dynamic_templates": [
           {
             "en": {
               "match": "*_en",
               "match_mapping_type": "string",
               "mapping": {
                 "analyzer": "english",
                 "type": "string"
               }
             }
           }
         ],
         "properties": {
           "title": {
             "type": "text",
             "fields": {
               "keyword": {
                 "type": "keyword",
                 "ignore_above": 256
               }
             }
           },
           "title_en": {
             "type": "text",
             "analyzer": "english"
           }
         }
       }
     }
   }
 }
 
 GET /my_index/my_type/_search
 {
   "query":{
     "match":{
       "title":"is"
     }
   }
 }
 
 {
   "took": 1,
   "timed_out": false,
   "_shards": {
     "total": 5,
     "successful": 5,
     "failed": 0
   },
   "hits": {
     "total": 1,
     "max_score": 0.2824934,
     "hits": [
       {
         "_index": "my_index",
         "_type": "my_type",
         "_id": "1",
         "_score": 0.2824934,
         "_source": {
           "title": "this is my first article"
         }
       }
     ]
   }
 }

title没有匹配到任何的dynamic模板,默认就是standard分词器,不会过滤停用词,is会进入倒排索引,用is来搜索是可以搜索到的

title_en匹配到了dynamic模板,就是english分词器,会过滤停用词,is这种停用词就会被过滤掉,用is来搜索就搜索不到了

  • 定制自己的default mapping template(index level)
 PUT /my_index
 {
     "mappings": {
         "_default_": {
             "_all": { "enabled":  false }
         },
         "blog": {
             "_all": { "enabled":  true  }
         }
     }
 }

Elasticsearch核心知识篇(66)

索引管理_复杂上机实验:基于scoll+bulk+索引别名实现零停机重建索引

重建索引

一个field的设置是不能被修改的,如果要修改一个Field,那么应该重新按照新的mapping,建立一个index,然后将数据批量查询出来,重新用bulk api写入index中

批量查询的时候,建议采用scroll api,并且采用多线程并发的方式来reindex数据,每次scoll就查询指定日期的一段数据,交给一个线程即可

  • 一开始,依靠dynamic mapping,插入数据,但是不小心有些数据是2017-01-01这种日期格式的,所以title这种field被自动映射为了date类型,实际上它应该是string类型的
 PUT /my_index/my_type/3
 {
   "title": "2017-01-03"
 }
 
 {
   "my_index": {
     "mappings": {
       "my_type": {
         "properties": {
           "title": {
             "type": "date"
           }
         }
       }
     }
   }
 }
  • 当后期向索引中加入string类型的title值的时候,就会报错
 PUT /my_index/my_type/4
 {
   "title": "my first article"
 }
 ​
 {
   "error": {
     "root_cause": [
       {
         "type": "mapper_parsing_exception",
         "reason": "failed to parse [title]"
       }
     ],
     "type": "mapper_parsing_exception",
     "reason": "failed to parse [title]",
     "caused_by": {
       "type": "illegal_argument_exception",
       "reason": "Invalid format: "my first article""
     }
   },
   "status": 400
 }
  • 如果此时想修改title的类型,是不可能的
 PUT /my_index/_mapping/my_type
 {
   "properties": {
     "title": {
       "type": "text"
     }
   }
 }
 
 {
   "error": {
     "root_cause": [
       {
         "type": "illegal_argument_exception",
         "reason": "mapper [title] of different type, current_type [date], merged_type [text]"
       }
     ],
     "type": "illegal_argument_exception",
     "reason": "mapper [title] of different type, current_type [date], merged_type [text]"
   },
   "status": 400
 }
  • 此时,唯一的办法,就是进行reindex,也就是说,重新建立一个索引,将旧索引的数据查询出来,再导入新索引

  • 如果说旧索引的名字,是old_index,新索引的名字是new_index,终端java应用,已经在使用old_index在操作了,难道还要去停止java应用,修改使用的index为new_index,才重新启动java应用吗?这个过程中,就会导致java应用停机,可用性降低

  • 所以说,给java应用一个别名,这个别名是指向旧索引的,java应用先用着,java应用先用goods_index alias来操作,此时实际指向的是旧的my_index

 PUT /my_index/_alias/goods_index
  • 新建一个index,调整其title的类型为string
 PUT /my_index_new
 {
   "mappings": {
     "my_type": {
       "properties": {
         "title": {
           "type": "text"
         }
       }
     }
   }
 }
  • 使用scroll api将数据批量查询出来
 GET /my_index/_search?scroll=1m
 {
     "query": {
         "match_all": {}
     },
     "sort": ["_doc"],
     "size":  1
 }
 
 {
   "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAADpAFjRvbnNUWVZaVGpHdklqOV9zcFd6MncAAAAAAAA6QRY0b25zVFlWWlRqR3ZJajlfc3BXejJ3AAAAAAAAOkIWNG9uc1RZVlpUakd2SWo5X3NwV3oydwAAAAAAADpDFjRvbnNUWVZaVGpHdklqOV9zcFd6MncAAAAAAAA6RBY0b25zVFlWWlRqR3ZJajlfc3BXejJ3",
   "took": 1,
   "timed_out": false,
   "_shards": {
     "total": 5,
     "successful": 5,
     "failed": 0
   },
   "hits": {
     "total": 3,
     "max_score": null,
     "hits": [
       {
         "_index": "my_index",
         "_type": "my_type",
         "_id": "2",
         "_score": null,
         "_source": {
           "title": "2017-01-02"
         },
         "sort": [
           0
         ]
       }
     ]
   }
 }
  • 采用bulk api将scoll查出来的一批数据,批量写入新索引
 POST /_bulk
 { "index":  { "_index": "my_index_new", "_type": "my_type", "_id": "2" }}
 { "title":    "2017-01-02" }
  • 反复循环8~9,查询一批又一批的数据出来,采取bulk api将每一批数据批量写入新索引

  • 将goods_index alias切换到my_index_new上去,java应用会直接通过index别名使用新的索引中的数据,java应用程序不需要停机,零提交,高可用

 POST /_aliases
 {
     "actions": [
         { "remove": { "index": "my_index", "alias": "goods_index" }},
         { "add":    { "index": "my_index_new", "alias": "goods_index" }}
     ]
 }
  • 直接通过goods_index别名来查询,是否ok
 GET /goods_index/my_type/_search

基于alias对client透明切换index

 PUT /my_index_v1/_alias/my_index
 
 client对my_index进行操作
 
 reindex操作,完成之后,切换v1到v2
 
 POST /_aliases
 {
     "actions": [
         { "remove": { "index": "my_index_v1", "alias": "my_index" }},
         { "add":    { "index": "my_index_v2", "alias": "my_index" }}
     ]
 }