Python爬虫入门教程06:爬取数据后的词云图制作

141 阅读2分钟

  • jieba

  • wordcloud

安装Python并添加到环境变量,pip安装需要的相关模块即可。

上篇文章爬取了B站视频的弹幕数据,对于这方面可以做一些弹幕词云分析,让爬虫数据不再过于单调。

代码内容还是非常简介的,看注释就可以明白了

import jieba

import wordcloud

读取文件内容

f = open('弹幕.txt', encoding='utf-8')

txt = f.read()

jiabe 分词 分割词汇

txt_list = jieba.lcut(txt)

string = ' '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(

width=1000, # 图片的宽

height=700, # 图片的高

background_color='white', # 图片背景颜色

font_path='msyh.ttc', # 词云字体

scale=15,

)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file('out.png')

在这里插入图片描述

由上图所示,有很多的这样的 到位 这样的关键词,这样的关键词是没有什么实际意义的,我们可以在词云设置中设置 停用词

stopwords={'到位'}

如果你想要输入的图片不是正方形的图片,想要设置成自己想要的形状,需要先找一张 透明图

导入 imageio 模块

import jieba

import wordcloud

import imageio

导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片

py = imageio.imread('.\0.jpg') # 如何你想要改变词云图的形状,可以添加

读取文件内容

f = open('B站弹幕.txt', encoding='utf-8')

txt = f.read()

jiabe 分词 分割词汇

txt_list = jieba.lcut(txt)

string = ' '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(

width=1000, # 图片的宽

height=700, # 图片的高

background_color='white', # 图片背景颜色

font_path='msyh.ttc', # 词云字体

mask=py, # 所使用的词云图片

scale=15,

stopwords={'到位'}, # 停用词

contour_width=5,

contour_color='red' # 轮廓颜色

)

给词云输入文字

wc.generate(string)

词云图保存图片地址

在这里插入图片描述

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

了解详情:docs.qq.com/doc/DSnl3ZG…