首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
hanlp
iterhui
创建于2022-03-20
订阅专栏
hanlp自然语言处理
暂无订阅
共12篇文章
创建于2022-03-20
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
自然语言处理hanlp------10HanLP的词典分词实现
hanlp分词主要有两个,对应前面章节学习的双数组字典树和基于双数组的AC树。 对象.seg(“文本”)HanLP.Config.ShowTermNature = false; // 分词结果不显示词性对象.HanLP.Config.System.out.println(segm...
自然语言处理hanlp------5切分算法
public static List<String> segmentFully(String text, Map<String, CoreDictionary.for (int i = 0; i < text.for (int j = i + 1; j <= text.Strin...
自然语言处理hanlp------4词典
前言一、词库的格式了解二、词典的加载1.引入数据2.1.2.TreeMap<String, CoreDictionary.IOUtil.System.out.printf("词典大小:%d个词条\n", dictionary.System.out.println(dictiona...
自然语言处理hanlp------7-2双数组字典树(*初学者可选择性学习)
前言一、构造*二、由图和文字介绍来理解1.图2.本章节内容有一定难度,初学者可以选择性学习 我们从晗佬的双数组结构来逆向理解这个流程,就会简单很多。何晗大佬的书上本节写的特别多,也比较复杂,我讲概述一下,首先,我们要明白双数组字典树是一个深度优先遍历的问题,目的是为字典树的每个节...
自然语言处理hanlp------6-2字典树的实现
本章节为原书的 2.4.4首字散列其余二分的字典树 2.4.首先需要了解散列函数,其实一般也就说的是哈希函数,这个大家就不陌生了。System.out.println(new Character('池').hashcode() - new Character('江').java的...
自然语言处理hanlp------7-1双数组字典树
前言一、双数组字典树(DAT)是什么?二、了解一下源码1.定义一个双数组2.状态转移3.上一节的BinTrie的接口做到了1000万字每秒的速度,比Python的64万字每秒提高了两个数量级。但我们是算法工程师,要做到挑战极限。Trie树本质是一个确定的有限状态自动机(DFA),...
自然语言处理hanlp------6-1字典树的实现
前言一、字典树是什么?二、实现代码1.代码展示2.字典树(Trie、前缀树)和后缀树是单词处理的树形数据结构。 1.self.self.child = self._children.self.child.super().state = state._children.return...
自然语言处理hanlp------3java调用hanlp
一、进入依赖库二、复制配置文件1.打开命令行2.复制hanlp.<groupId>com.<version>portable-1.7.1.jar 1.7.8: d:\anaconda3\envs\iterhui-hanlp\lib\site-packages\pyhanlp\st...
自然语言处理hanlp------2初体验
感受hanlp的常用功能 例如:命令 hanlp segment 哦豁,出师不利,可以看得出是numpy的问题,csdn查询后,更改numpy版本即可 亲测升级版本并不好使,我该用了numpy==1.14.
自然语言处理hanlp------1安装
本人基于Python开始学习何大佬的nlp: 默认大家自行学习安装了anaconda 如下图先安装 一个环境 我选择 了3.6的Python 名字自定义即可 点击左侧按钮,打开命令行 输入pip install pyhanlp 之后检测是否安装成功输入 hanlp 发现报错Imp...
自然语言处理hanlp------9基于双数组字典树的AC自动机
l)的时间内高速完成单串匹配,并且消耗的内存可控,软肋在于多模式匹配。如果要匹配多个模式串,必须先前缀查询,然后频繁截取文本的后缀才行。但是上一节测评的AC多模式匹配又还不如双数组字典树快,所以,本节就采用二者结合。也可以看作为一棵双数组字典树的每个状态附上额外的信息,AC自动机...
自然语言处理hanlp------8AC自动机
前言一、从字典树到AC自动机1. goto表2.output表3.2)次状态转移。AC自动机就是一种可以一次扫描查询出所有出现的单词的复杂度为0(n)的多模式匹配算法。简单说一下AC自动机的AC,就是这俩人,贝尔实验室的Aho和Corasick。前面说了例子,就是为了让一次扫描查...