利用python进行汉字去重统计

259 阅读2分钟

1.下载与安装Python

首先访问网址 www.python.org,点击Downloads页面,即可下载Python。如下图

image.png

如红色箭头所示,选在windows

image.png

页面跳转到适配windows系统的python安装包下载页面,需要确认电脑是64位系统还是32位系统,因为我的电脑是64位系统,所以我这里下载的是64位安装程序,若是32位系统,需要下载对应32位对应安装程序

image.png

查看电脑系统位数的方法,在桌面上右键我的电脑或是此电脑,选择属性,打开如下图页面可以查看电脑的位数

image.png

下载下来的安装包如下图所示

image.png

双击安装包进行安装,

image.png

等待安装完成

image.png

安装完成,点击close按钮

image.png

2.验证是否安装成功

在电脑左下角输入cmd,点击回车键, 打开电脑自带的命令提示符程序

image.png

企业微信截图_16927568211496.png

输入python,点击回车,显示python版本信息,则说明安装成功,输入exit()退出

image.png

3.编写汉字统计脚本,进行汉字去重统计

将下述脚本在存在本地电脑上,假设存储目录为C:\Users\姓名\Desktop\wordCount\wordCount.py

#脚本说明  
#该统计指定文档中去重汉字的数量,#号开头的未脚本说明  
#需要将姓名替换为自己姓名路径
#指定要统计的文档路径,根据实际情况情况做修改  
word_file_path = r'C:\Users\姓名\Desktop\wordCount\wordTest01.txt'  
  
#下述代码首先打开需要统计的文档,然后对文档中的字符逐个进行判断,若是汉字,则加入到set集合中,  
#set集合在存储过程中会进行再次判断,若这个字符在set中不存在,则加入,否则,不加入  
words = [x for x in set(open(word_file_path, encoding='UTF-8').read()) if '\u4e00' <= x <= '\u9fff']  
  
#打印出集合set的长度即为统计后的数字,len是length的缩写  
print('去重后的汉字个数为:', len(words))  
  
#若要打印出所有汉字,则把下述语句前面的#号去除  
#print(words)

在电脑左下角输入cmd,点击回车键, 打开电脑自带的命令提示符程序,输入脚本执行命令,可以获取汉字去重统计后的结果

image.png