中文分词
中文分词中有众多分词工具,如结巴、hanlp 、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持 java ,分词是 HanLP 最基础的功能, HanLP 实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置 Hanlp 来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。
下载jar、property和data文件
下载jar 文件,(下载 hanlp 压缩包)解压之后获得 jar 和 property 文件如下:
其中property 问配置文件, jar 文件为外部引用文件。
然后下载data 文件:
【https:// 】 pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)
解压压缩包之后就能获取data 目录了。
一切就绪之后下面就是配置了。
配置hanlp
新建一个空项目,包括一个新建的java 文件的 test.java ,
1.package com;
2.import com.hankcs.hanlp.HanLP;
3.public class Test {
4.public static void main(String[] args) {
5. System.out.println(HanLP.segment(" 你好,欢迎使用 HanLP ! "));
6. }
7.}
目录结构如下图:
如果是在linux 中的话,你可以将 property 文件放在 classpath 中, windows 中也可以,配置环境变量,将 property 文件的绝对路径加上就可以了,然后运行一下这个 java 文件:
你会发现如下错误
1. 十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>
2. 严重 : 没有找到 hanlp.properties ,可能会导致找不到 data
3.========Tips========
4. 请将 hanlp.properties 放在下列目录:
5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes
6.Web 项目则请放到下列目录:
7.Webapp/WEB-INF/lib
8.Webapp/WEB-INF/classes
9.Appserver/lib
10.JRE/lib
11. 并且编辑 root=PARENT/path/to/your/data
然后将property 放到相应的目录就可以了 , 注意 property 配置只需要修改 root 的配置就行了。
1. 本配置文件中的路径的根目录,根目录 + 其他路径 = 绝对路径 Windows 用户请注意,路径分隔符统一使用 /
2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java
就比如我的解压后的data 文件夹是放在 D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java 目录下的那我就改这个就可以了,其余的配置不用修改
运行成功如下图:
---------------------
作者:学zaza