首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Jieba
1221 关注,34 文章
关注
热门
最新
最热
HZ在掘金
1年前
NLP
Jieba
NLP:jieba中文分词
本文要点 1/前言 2/jieba扩展包 3/jieba.cut()函数和jieba.cut_for_search()函数 4/全模式&&精确模式 5/搜索引擎模式 6/HMM模型 7/繁体字分词 8
1135
1
评论
科技老丁哥
4年前
机器学习
人工智能
NLP
【火炉炼AI】机器学习034-NLP对文本进行分词
文本分块是将一大段文本分割成几段小文本,其目的是比如想获取一段文本中的一小部分,或分割得到固定单词数目的小部分等,经常用于非常大的文本。注意文本分块和分词不一样,分词的目的是把一段文本分割成单词,而文本分块的目的是把一大段文本分割成多个小段文本。 1. NLP文本分块 在不用的…
479
3
评论
张宏伦
4年前
人工智能
GitHub
Jieba
深度有趣 | 03 高端又一般的词云
简介词云是一种数据呈现方式不会的时候,感觉很厉害、很高大上会用了之后,感觉到哪都看到别人在用掌握用Python实现词云的方法准备安装包准备一些文本,英文或中文皆可一个简单的例子WordCloud()可
2722
27
评论
承香墨影
4年前
Android
Java
算法
分词,难在哪里?科普+解决方案!
分词,我想是大多数大前端开发人员,都不会接触到的一个概念。这个不影响我们了解它,毕竟我们要多方向发展。今天就来简单介绍一些分词,我尽量用简介的语言来描述这个概念,并且最后再提供一个解决方案,希望对你有帮助。 分词简单来讲就是把一句话,按照词义,切分成一个个单独的词。这么说可能没…
4232
51
3
爬蜥
4年前
后端
Java
算法
java版JieBa分词源码走读
JieBa内部存储了一个文件dict.txt,比如记录了 X光线 3 n。在内部的存储trie树结构则为 至此 '今天早上' 这句话分词结束。可以看到这都是建立在这个词已经存在于字典的基础上成立的。 使用的方法为Viterbi算法。首先预加载如下HMM模型的三组概率集合和隐藏状…
2335
12
评论
古柳_Deserts_X
4年前
后端
Jieba
GitHub
手把手教你完成一个数据科学小项目(8):Emoji提取与分布图谱
请先阅读“中国年轻人正带领国家走向危机”,这锅背是不背? 一文,以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。 本系列代码统一开源在GitHub:DesertsX/gulius-projects ,感兴趣的朋友可以先行 star 哈。 截至目前我们已经完成了数据…
983
14
评论
自闭
4年前
Jieba
GitHub
Python
Python中文分词 jieba 十五分钟入门与进阶
整体介绍jieba基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐github:https://github.com/fxsjy/jieba开源中
3114
39
评论
红烧不是清蒸
5年前
后端
爬虫
Python
爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?(内附源码)
本文通过 Python 制作网络爬虫,爬取豆瓣电影评论,并分析然后制作豆瓣影评的云图。
1011
14
3
一个普普通通简简单单
5年前
Python
NLP
后端
Python自然语言处理分析倚天屠龙记
最近在了解到,在机器学习中,自然语言处理是较大的一个分支。存在许多挑战。例如: 如何分词,识别实体关系,实体间关系,关系网络展示等。我用Jieba + Word2vec + NetworkX 结合在一起,做了一次自然语言分析。语料是 倚天屠龙记。 之前也有很多人用金庸的武侠小…
1535
10
1
Python进阶者
5年前
Python
Jieba
Excel
Python大佬分析了15万歌词,告诉你民谣歌手们到底在唱什么
前几天小编写了两篇利用Python采集网易云歌词和采集网易云音乐歌曲文章,相信小伙伴们经过实践之后都能够顺利的采集到自己想要听的歌曲。下面的歌词是小编去年11月份采集的民谣歌词,经过统计,歌词量达到将近15万。 从词频中,我们可以感受到民谣歌手们时常提及青春,感叹韶华易逝,青春…
1835
20
评论
双er
5年前
Python
人工智能
NLP
用WordCloud词云+LDA主题模型,带你读一读《芳华》(python实现)
文本挖掘的必备步骤,毕竟理解中文的最小单位是词汇。这里没有使用简单的jieba.cut进行分词,因为我们需要知道单词的词性,便于稍后根据词性过滤不重要的词。 采用jieba.posseg.cut分词可以输出词性。我们并不能拍脑门决定是要动词还是名词等等,词性有非常多个,我把全部…
6363
35
2
假装这里有个名字
5年前
Python
后端
Jieba
python的requests_html库和词云分析2018政府工作报告全文
用掘金半年多了,但是从来都没有写过文章,最近刚好有时间加上手痒痒所有就有了这第一篇掘金文章。 刚好最近在开十九大,2018政府工作报告全文出来了,在凤凰网能细细研读。作为一个程序员,怎么能忍受看那么多中文呢!所以果断来搞事啊! 思路大概就是:使用最近刚发布的for humans…
590
15
2
州的先生
5年前
scikit-learn
机器学习
单元测试
Scikit-Learn机器学习实践——垃圾短信识别
前不久,我们使用NLTK的贝叶斯分类模型垃圾对短信数据进行机器学习的垃圾短信识别。 其实除了使用NLTK,我们还可以使用Scikit-Learn这个集成了诸多机器学习算法的模块进行上述的实验。 Scikit-Learn的API设计非常合理和高效,对于初触机器学习的同学来说非常友…
3899
15
2
超人汪小建
5年前
人工智能
Python
Windows
如何使用中文维基百科语料
在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。其中维基百科会定时将语料库打包发布 https://dumps.wikimedia.org/zhwiki/ ,可以下载最新版本的语料库。而百度百科则需要自己去爬,不过…
4293
11
评论
姚晓哲
5年前
人工智能
单元测试
Jieba
Naive的贝叶斯说红楼梦后40回不是曹雪芹写的
用朴素贝叶斯判断文章的作者
1014
20
1
Plum23535
5年前
Jieba
人工智能
百度
用Rasa NLU构建自己的中文NLU系统
自然语言理解(NLU)系统是问答系统、聊天机器人等更高级应用的基石。基本的NLU工具,包括实体识别和意图识别两个任务。
2466
6
评论