IKAnalyzer配合echarts-wordcloud实现高频词统计,以及词云展示

794 阅读4分钟

image.png

    先来看看这个图,这个是由echarts-wordcloud生成的一个词云图,其中包含的是一些数据中出现的高频词汇。这样的词云图能直观的展示一段时间内的高频热词,能在一定程度上起到一个分析数据的作用。

    想要实现这个功能,一共分为三步。第一,中文分词,实现大段文字解析词语。第二,高频词统计,统计词语出现次数,并且排序,取其中排名靠前是词语。第三,生成词云,界面展示。

一、中文分词

使用IKAnalyzer实现中文分词

1、引入pom依赖

<!-- https://mvnrepository.com/artifact/com.jianggujin/IKAnalyzer-lucene -->
       <dependency>
           <groupId>com.jianggujin</groupId>
           <artifactId>IKAnalyzer-lucene</artifactId>
           <version>8.0.0</version>
       </dependency>

2、引入配置文件到resource目录

image.png

IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
   <comment>IK Analyzer 扩展配置</comment>
   <!--用户可以在这里配置自己的扩展字典 -->
   <entry key="ext_dict">ext.dic;</entry> 
   <!--用户可以在这里配置自己的扩展停止词字典-->
   <entry key="ext_stopwords">stopword.dic;</entry>
</properties>



image.png

3、创建分词对象

import io.swagger.annotations.ApiModel;
import io.swagger.annotations.ApiModelProperty;
import lombok.*;
import lombok.experimental.Accessors;
import javax.validation.constraints.NotEmpty;

@Data
@NoArgsConstructor
@AllArgsConstructor
@Builder
@Accessors(chain = true)
@ToString(callSuper = true)
@EqualsAndHashCode(callSuper = false)
@ApiModel(value = "IkAnalyzerResult", description = "Ik分词结果")
public class IkAnalyzerResult {



/**
 * 分词内容
 */
@ApiModelProperty(value = &quot;分词内容&quot;)
private String term;

/**
 * 分词类型 CN_CHAR 中文字符  CN_WORD 中文单词 ARABIC 阿拉伯数字 ENGLISH 英文
 */
@ApiModelProperty(value = &quot;分词类型 CN_CHAR 中文字符  CN_WORD 中文单词 ARABIC 阿拉伯数字 ENGLISH 英文&quot;)
private String type;

/**
 * 分词起始下标
 */
@ApiModelProperty(value = &quot;分词起始下标&quot;)
private Integer startOffset;

/**
 * 分词结束下标
 */
@ApiModelProperty(value = &quot;分词结束下标&quot;)
private Integer endOffset;


}

4、实现分词功能

/**
 *
 * @param analysisText 分析文本
 * @param useSmart 是否开启智能分词
 * @param typeList 显示分词类型 如不设置则不进行过滤 CN_CHAR 中文字符  CN_WORD 中文单词 ARABIC 阿拉伯数字 ENGLISH 英文
 * @return List<IkAnalyzerResult>
 * @throws IOException
 */
public static List<IkAnalyzerResult> IkAnalyzerText(String analysisText,boolean useSmart,List<String> typeList) throws IOException {
    // 返回结果
    List<IkAnalyzerResult> resultList=new ArrayList<IkAnalyzerResult>();
    //创建一个标准分析器对象   是否开启智能分词
    Analyzer analyzer=new IKAnalyzer(useSmart);
    //获取tokenStream对象
    //参数1域名 2要分析的文本内容
    TokenStream tokenStream=analyzer.tokenStream("",analysisText);
    //添加引用,用于获取每个关键词
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    //获取当前分词的类型
    TypeAttribute typeAttribute = tokenStream.addAttribute(TypeAttribute.class);
    //添加一个偏移量的引用,记录了关键词的开始位置以及结束位置
    OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
    //将指针调整到列表的头部
    tokenStream.reset();
    //遍历关键词列表,incrementToken判断是否结束
    while (tokenStream.incrementToken()) {
        // 分词类型
        String type =String.valueOf(typeAttribute.type());
        // 类型集合不为空 则按类型
        if(CollectionUtil.isNotEmpty(typeList)){
            // 包含的类型,才加入结果中
            if(typeList.contains(type)){
                // 创建分词对象
                IkAnalyzerResult ikAnalyzerResult=new IkAnalyzerResult();
                // 设置分词内容
                ikAnalyzerResult.setTerm(String.valueOf(charTermAttribute));
                // 设置分词类型
                ikAnalyzerResult.setType(type);
                // 设置分词起始下标
                ikAnalyzerResult.setStartOffset(offsetAttribute.startOffset());
                // 设置分词结束下标
                ikAnalyzerResult.setStartOffset(offsetAttribute.endOffset());
                // 添加到集合中
                resultList.add(ikAnalyzerResult);
            }
        // 集合类型为空 则全部添加到返回结果中
        }else{
            // 创建分词对象
            IkAnalyzerResult ikAnalyzerResult=new IkAnalyzerResult();
            // 设置分词内容
            ikAnalyzerResult.setTerm(String.valueOf(charTermAttribute));
            // 设置分词类型
            ikAnalyzerResult.setType(type);
            // 设置分词起始下标
            ikAnalyzerResult.setStartOffset(offsetAttribute.startOffset());
            // 设置分词结束下标
            ikAnalyzerResult.setStartOffset(offsetAttribute.endOffset());
            // 添加到集合中
            resultList.add(ikAnalyzerResult);
        }
    }
    tokenStream.close();
    return resultList;
}


二、高频词统计

/**
 * 高频词统计和排序
 * @param ikAnalyzerResultList 分词结果集合
 * @param sortFlag 排序方式 asc 正序 desc 倒序
 * @param statisticsCount 统计数量(如果最终数量大于统计数量则以统计数量为准)
 * @return String元素 包括分词内容+"|"+出现频率
 */
public static List<String> HighWordFrequencyStatisticsAndSort(List<IkAnalyzerResult> ikAnalyzerResultList,String sortFlag,Integer statisticsCount){
    // 返回结果
    List<String> resultList=new ArrayList<String>();
    // 分词频率统计map
    Map<String,Integer> wordFrequencyMap=new HashMap<String,Integer>();
    // 判断传入分词结果集合不为空
    if(CollectionUtil.isNotEmpty(ikAnalyzerResultList)){
        // 遍历分词结果
        ikAnalyzerResultList.stream().forEach(ikAnalyzerResult -> {
            // map包含该分词
            if(wordFrequencyMap.containsKey(ikAnalyzerResult.getTerm())){
                // 分词频率+1
                wordFrequencyMap.put(ikAnalyzerResult.getTerm(),wordFrequencyMap.get(ikAnalyzerResult.getTerm())+1);
            }else{
                // 分词频率设置为1
                wordFrequencyMap.put(ikAnalyzerResult.getTerm(),1);
            }
        });
        // 遍历
        for(Map.Entry<String, Integer> entry:wordFrequencyMap.entrySet()){
            // 添加到集合中
            resultList.add(entry.getKey()+"|"+entry.getValue());
        }
        // 排序
        resultList= resultList.stream().sorted(((o1, o2) -> {
            Integer count1=Integer.parseInt(o1.substring(o1.lastIndexOf("|")+1));
            Integer count2=Integer.parseInt(o2.substring(o2.lastIndexOf("|")+1));
            // 正序
            if("asc".equals(sortFlag)){
                return count1 - count2;
            // 倒序
            }else {
                return count2 - count1;
            }
        })).collect(Collectors.toList());
    }

// 如果结果数量大于统计数量,则截取统计数量的数据
if(resultList.size()&gt;statisticsCount){
    resultList=resultList.subList(0,statisticsCount);
}
return resultList;




}


三、生成词云

1、词云数据接口调用

// 词云list
List<Map<String,Object>> chartsWordCloudEvalKeyList=new ArrayList<Map<String,Object>>();
// 设置过滤词类型
List<String> typeList=new ArrayList<String>();
typeList.add("CN_WORD");
// 文本分词
List<IkAnalyzerResult>  ikAnalyzerResultList= IkAnalyzerUtil.IkAnalyzerText(analysisContent.toString(),true,typeList);
// 高频词统计
List<String> result=IkAnalyzerUtil.HighWordFrequencyStatisticsAndSort(ikAnalyzerResultList,"desc",100);
// 判断不为空
if(CollectionUtil.isNotEmpty(result)){
    // 遍历结果集
    result.stream().forEach(s -> {
        // 获取名称
        String name=s.substring(0,s.lastIndexOf("|"));
        // 获取词频
        String value=s.substring(s.lastIndexOf("|")+1);
        // 创建map对象
        Map<String,Object> chartsMap=new HashMap<String,Object>();
        // 设置值
        chartsMap.put("name",name);
        chartsMap.put("value",value);
        // 添加到集合中
        chartsWordCloudEvalKeyList.add(chartsMap);
    });
}

2、echarts-wordcloud实现词云(vue版本)

<template>
  <div :class="className" :style="{height:height,width:width}" />
</template>

<script>
import echarts from 'echarts'
require('echarts/theme/macarons')
require('echarts-wordcloud')
import resize from '@/views/mobile-nurse/rule/data-analysis/mixins/resize.js'
import chartNoData from '@/assets/index/chartNoData.png'
export default {
  mixins: [resize],
  props: {
    echartsData: {
      type: Array,
      default: function() {
        return []
      }
    },
    className: {
      type: String,
      default: 'chart'
    },
    width: {
      type: String,
      default: '100%'
    },
    height: {
      type: String,
      default: '250px'
    }
  },
  data() {
    return {
      chart: null,
      echartsDataObj: {},
      echartsDataOptions: {},
      imageData: ''
    }
  },
  watch: {
    echartsData: {
      handler(val) {
        this.echartsDataObj = val
        this.initChart()
      },
      immediate: true
    }
  },
  beforeDestroy() {
    if (!this.chart) {
      return
    }
    this.chart.dispose()
    this.chart = null
  },
  methods: {
    initChart(data) {
      data = this.echartsDataObj
      this.echartsDataOptions = {}
      this.echartsDataOptions.title = {
        text: '关键字词云',
        x: 'center'
      }
      if (!data.length) {
        this.echartsDataOptions.title = {
          text: ['{a|}', '{b|暂无数据}'].join('\n'),
          x: 'center',
          y: 'center'
        }
        this.echartsDataOptions.title.textStyle = {
          rich: {
            a: {
              backgroundColor: {
                image: chartNoData
              },
              height: 40
            },
            b: {
              color: '#C2C7CF'
            }
          }
        }
      }
      const maskImage = new Image()
      maskImage.src = this.imageData
      const _that = this
      maskImage.onload = function() {
        _that.echartsDataOptions.tooltip = {}
        _that.echartsDataOptions.legend = {}
        _that.echartsDataOptions.series = [{
          type: 'wordCloud',
          gridSize: 1,
          sizeRange: [12, 55],
          rotationRange: [-45, 0, 45, 90],
          maskImage: maskImage,
          textStyle: {
            normal: {
              color: function() {
                return 'rgb(' +
            Math.round(Math.random() * 255) +
            ', ' + Math.round(Math.random() * 255) +
            ', ' + Math.round(Math.random() * 255) + ')'
              }
            }
          },
          left: 'center',
          top: 'center',
          right: null,
          bottom: null,
          data: data
        }]

        _that.chart = echarts.init(_that.$el, 'macarons')
        _that.chart.clear()
        _that.chart.setOption(_that.echartsDataOptions)
        _that.chart.resize()
      }
    }
  }
}
</script>


注意事项:

echarts初始化方法需要在onload方法中,否则会出现词云加载不出来的问题。

image.png