配置Hanlp自然语言处理进阶

369 阅读2分钟
原文链接: yq.aliyun.com

中文分词

中文分词中有众多分词工具,如结巴、hanlp 、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持 java ,分词是 HanLP 最基础的功能, HanLP 实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置 Hanlp 来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。

下载jar、property和data文件

下载jar 文件,(下载 hanlp 压缩包)解压之后获得 jar 和 property 文件如下:

98472b88748ceda4fffcbca1501fd4dd469abae2 

其中property 问配置文件, jar 文件为外部引用文件。

然后下载data 文件:

【https:// 】 pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)

解压压缩包之后就能获取data 目录了。

一切就绪之后下面就是配置了。

配置hanlp

新建一个空项目,包括一个新建的java 文件的 test.java ,

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment(" 你好,欢迎使用 HanLP ! "));

6.    }

7.}  

目录结构如下图:

63138312da7623195bf34445bdeb734834a75033 

如果是在linux 中的话,你可以将 property 文件放在 classpath 中, windows 中也可以,配置环境变量,将 property 文件的绝对路径加上就可以了,然后运行一下这个 java 文件:

你会发现如下错误

 

1. 十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2. 严重 : 没有找到 hanlp.properties ,可能会导致找不到 data

3.========Tips========

4. 请将 hanlp.properties 放在下列目录:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web 项目则请放到下列目录:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11. 并且编辑 root=PARENT/path/to/your/data

 

然后将property 放到相应的目录就可以了 , 注意 property 配置只需要修改 root 的配置就行了。

 

1. 本配置文件中的路径的根目录,根目录 + 其他路径 = 绝对路径 Windows 用户请注意,路径分隔符统一使用 /

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就比如我的解压后的data 文件夹是放在 D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java 目录下的那我就改这个就可以了,其余的配置不用修改

 

运行成功如下图:

4b81433aa236c8ea906415a63b25f0d2ddbdcf29 

---------------------

作者:学zaza