-
jieba
-
wordcloud
安装Python并添加到环境变量,pip安装需要的相关模块即可。
上篇文章爬取了B站视频的弹幕数据,对于这方面可以做一些弹幕词云分析,让爬虫数据不再过于单调。
代码内容还是非常简介的,看注释就可以明白了
import jieba
import wordcloud
读取文件内容
f = open('弹幕.txt', encoding='utf-8')
txt = f.read()
jiabe 分词 分割词汇
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
词云图设置
wc = wordcloud.WordCloud(
width=1000, # 图片的宽
height=700, # 图片的高
background_color='white', # 图片背景颜色
font_path='msyh.ttc', # 词云字体
scale=15,
)
给词云输入文字
wc.generate(string)
词云图保存图片地址
wc.to_file('out.png')
由上图所示,有很多的这样的 到位 这样的关键词,这样的关键词是没有什么实际意义的,我们可以在词云设置中设置 停用词
stopwords={'到位'}
如果你想要输入的图片不是正方形的图片,想要设置成自己想要的形状,需要先找一张 透明图
导入 imageio 模块
import jieba
import wordcloud
import imageio
导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片
py = imageio.imread('.\0.jpg') # 如何你想要改变词云图的形状,可以添加
读取文件内容
f = open('B站弹幕.txt', encoding='utf-8')
txt = f.read()
jiabe 分词 分割词汇
txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)
词云图设置
wc = wordcloud.WordCloud(
width=1000, # 图片的宽
height=700, # 图片的高
background_color='white', # 图片背景颜色
font_path='msyh.ttc', # 词云字体
mask=py, # 所使用的词云图片
scale=15,
stopwords={'到位'}, # 停用词
contour_width=5,
contour_color='red' # 轮廓颜色
)
给词云输入文字
wc.generate(string)
词云图保存图片地址
感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)