ES分词器详解

691

Standard Analyzer

官方文档

www.elastic.co/guide/en/el…

分词器特性

  • 默认分词器
  • 支持停用词,默认是禁用
  • 支持设置分出词的最大长度(max_token_length),默认是255
    • 例如:设置max_token_length=5, jumped 会被分词成:jumpe和d
  • 不支持特殊字符的分词,例如:!@$#%^&*())__+=# 不会分出任何词
  • 对中文的分词,是以单个字为粒度拆分的
    • 例如:中国的首都,分词后是:中、国、的、首、都
  • 英文和数字连在一起时,分词后是一个整体
    • 例如:money255分出的词是:money255
  • 对数字的分词,是以一整个数字作为一个词
    • 例如:122.5 分出的词是:122.5
  • 对英文的分词,是以一个单词作为粒度(实际上应该是以空格,-的字符作为标识),并转换为小写
    • 例如:JAVA-EE hahaha dog's 分出来的词是: java、ee、hahaha、dog's
  • 点(.)不是分词符,所以以点连接的词,会被当做一个整体
    • 例如:java.io 会被分词成: java.io