开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第11天,点击查看活动详情
什么是词云
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”。从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
在网络上,我们经常可以看到一张图片,上面只有一堆大小不一的文字,有些通过文字生成一个人物的轮廓。像这样的图像,我们称之为词云。
*词云”就是数据可视化的一种形式。*给出一段文本的关键词,根据关键词的出现频率而生成的一幅图像,人们只要扫一眼就能够明白文章主旨。
jieba 的分词模式
支持三种分词模式:
-
精确模式:试图将句子最精确地切开,适合文本分析;它可以将结果十分精确分开,不存在多余的词。
- 常用函数:
cut(str)、lcut(str)
- 常用函数:
-
全模式:它可以将结果全部展现,也就是一段话可以拆分进行组合的可能它都给列举出来了把句子中所有的可以成词的词语都扫描出来, 速度非常快
- 常用函数:
lcut(str,cut_all=True)、cut(str,cut_all=True)
- 常用函数:
-
搜索引擎模式:在精确模式的基础上,对长词再次切分它的妙处在于它可以将全模式的所有可能再次进行一个重组
- 常用函数:
lcut_for_search(str)、cut_for_search(str)
- 常用函数:
代码:
精确模式
import pandas as pd
import jieba
# 读取文件
f = open('./Chinese.txt','r',encoding = 'utf-8')
# 读取内容
text = f.read()
# 切割分词
wordlist = jieba.cut(''.join(text))
result = ' '.join(wordlist)
print(result)
切分效果:
全模式
# 读取文件
f = open('./Chinese.txt','r',encoding='utf-8')
#读取内容
text = f.read()
# 切割分词
wordlist = jieba.lcut(''.join(text),cut_all=True)
result = ' '.join(wordlist)
print(result)
搜索引擎模式
# 读取文件
f = open('./Chinese.txt','r',encoding='utf-8')
# 读取内容
text = f.read()
# 切割分词
wordlist = jieba.lcut_for_search(''.join(text))
result = ' '.join(wordlist)
print(result)