Standard Analyzer
官方文档
分词器特性
- 默认分词器
- 支持停用词,默认是禁用
- 支持设置分出词的最大长度(max_token_length),默认是255
- 例如:设置max_token_length=5, jumped 会被分词成:jumpe和d
- 不支持特殊字符的分词,例如:!@$#%^&*())__+=# 不会分出任何词
- 对中文的分词,是以单个字为粒度拆分的
- 例如:中国的首都,分词后是:中、国、的、首、都
- 英文和数字连在一起时,分词后是一个整体
- 例如:money255分出的词是:money255
- 对数字的分词,是以一整个数字作为一个词
- 例如:122.5 分出的词是:122.5
- 对英文的分词,是以一个单词作为粒度(实际上应该是以空格,-的字符作为标识),并转换为小写
- 例如:JAVA-EE hahaha dog's 分出来的词是: java、ee、hahaha、dog's
- 点(.)不是分词符,所以以点连接的词,会被当做一个整体
- 例如:java.io 会被分词成: java.io