es - elasticsearch 自定义分析器 - 内建分词过滤器分类 - 1

69 阅读1分钟

世界上并没有完美的程序,但是我们并不因此而沮丧,因为写程序就是一个不断追求完美的过程。

为了方便选取与使用,在这里对分词过滤器进行分类 :

分词过滤器分类 :
1. 词干提取 :
1. hunspell
2. kstem
3. snowball
4. stemmer
5. porter stem
2. 拼词 :
1. common_grams
2. fingerprint
3. shingle
3. 切分 :
1. cjk_gram
2. edge_ngram
3. ngram
4. 转换 :
1. apostrophe
2. asciifolding
3. cjk_width
4. classic
5. condition
6. decimal digit
7. flatten graph
8. lowercase
9. min_hash
10. normalization
11. pattern replace
12. reverse
5. 过滤 :
1. delimited payload
2. elisioin
3. length
4. limit
5. pattern_capture
6. predicate scripts
7. remove duplicate
6. 字典 :
1. dictionary decompounder
2. hyphenation decompounder
3. keep types
4. keep words
5. keyword marker
6. keyword repeat
7. 集成 :
1. multiplexer