利用python进行汉字去重统计1.下载与安装Python 首先访问网址 https://www.python.org，

1.下载与安装Python

首先访问网址 www.python.org，点击Downloads页面，即可下载Python。如下图

如红色箭头所示，选在windows

页面跳转到适配windows系统的python安装包下载页面，需要确认电脑是64位系统还是32位系统，因为我的电脑是64位系统，所以我这里下载的是64位安装程序，若是32位系统，需要下载对应32位对应安装程序

查看电脑系统位数的方法，在桌面上右键我的电脑或是此电脑，选择属性，打开如下图页面可以查看电脑的位数

下载下来的安装包如下图所示

双击安装包进行安装，

等待安装完成

安装完成，点击close按钮

2.验证是否安装成功

在电脑左下角输入cmd,点击回车键, 打开电脑自带的命令提示符程序

企业微信截图_16927568211496.png

输入python，点击回车，显示python版本信息，则说明安装成功，输入exit()退出

3.编写汉字统计脚本，进行汉字去重统计

将下述脚本在存在本地电脑上，假设存储目录为C:\Users\姓名\Desktop\wordCount\wordCount.py

#脚本说明  
#该统计指定文档中去重汉字的数量,#号开头的未脚本说明  
#需要将姓名替换为自己姓名路径
#指定要统计的文档路径，根据实际情况情况做修改  
word_file_path = r'C:\Users\姓名\Desktop\wordCount\wordTest01.txt'  
  
#下述代码首先打开需要统计的文档，然后对文档中的字符逐个进行判断，若是汉字，则加入到set集合中，  
#set集合在存储过程中会进行再次判断，若这个字符在set中不存在，则加入，否则，不加入  
words = [x for x in set(open(word_file_path, encoding='UTF-8').read()) if '\u4e00' <= x <= '\u9fff']  
  
#打印出集合set的长度即为统计后的数字，len是length的缩写  
print('去重后的汉字个数为：', len(words))  
  
#若要打印出所有汉字，则把下述语句前面的#号去除  
#print(words)

在电脑左下角输入cmd,点击回车键, 打开电脑自带的命令提示符程序，输入脚本执行命令，可以获取汉字去重统计后的结果