es的高亮显示持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第29天，点击查看活动详情 elast

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第29天，点击查看活动详情

elasticsearch提供了以下三种highlighter ；你用过京东吗？京东搜索就会高亮，请问这个高亮如何实现。当时es可以支持啦

Fast vector highlighter

这个fvh Highlighter使用的是Lucene Fast Vector Highlighter，其基于term_vector的数据结构，需要在mapping中将相应的字段设置为with_positions_offsets;其比较适合对大文本字段进行高亮处理；

Unified highlighter

这个unified highlighter是elasticsearch的默认highlighter，其使用的是Lucene Unified Highlighter，它会将文本分割为句子片段，然后使用BM25算法计算每个句子片段的相似性得分；改highlighter支持phrase、fuzzy、prefix等查询的高亮处理；

Plain highlighter

这个plain Highlighter使用的是标准的lucene Highlighter，其通过关键字的重要性及关键字的位置信息，尝试尽量的体现查询的匹配逻辑；

要计算高亮片段的匹配情况，有两种主要的方式

高亮处理的时候实时计算匹配情况，这样就需要针对每个高亮片段创建临时索引，并执行查询语句来获取匹配信息；
index的时候进行相关分词起止字符的统计信息处理和保存；

postings list，在字段mapping的时候，可以通过index_options来控制记录到倒排索引中的分词统计信息，通过设置offsets可以保存记录分词的起止信息；
term vector，elasticsearch提供的term_vector也记录了分词过程中产生的分词的起止信息，也是在字段mapping的时候进行设置，需要设置为with_positions_offsets；

四、Highlighter的高亮处理过程

Highlighter的主要工作就是通过传入的查询和命中的文档，找到能够最好反应匹配相关性的高亮片段；其主要需要完成以下三个工作；

1.找到最相关的高亮片段；

本阶段主要通过实际命中记录的查询关键字，对得到的高亮片段进行打分，从而找到跟查询最相关的高亮片段；

三种Highlighter的处理过程如下

Plain Highlighter首先会利用高亮片段生成的分词在内存中创建一个index，并通过lucene查询计划执行原始的查询，然后通过命中信息获得匹配的分词，通过计算高亮片段的包含的不同查询分词的数量计算相关性得分；这里直接使用查询分词的boost(默认值)进行计算；

fvh Highlighter直接利用index的时候创建的term vector来得到高亮片段匹配的查询分词，其对高亮片段的评分算法跟Plain Highlighter类似，只不过这里会将命中的所有查询分词(包括重复的查询分词)计算在内；

unified Highlighter会尝试优先使用term vectors，index中的postings list，否则只能跟plain Highlighter相同的方式进行实时计算；其使用BM25算法计算高亮片段的相似度；

3.Highlight高亮片段；

本阶段主要进行输出前的编码和格式化，最后使用pre-tags、post-tags来包裹高亮片段中的查询关键字；