1.下载与安装Python
首先访问网址 www.python.org,点击Downloads页面,即可下载Python。如下图
如红色箭头所示,选在windows
页面跳转到适配windows系统的python安装包下载页面,需要确认电脑是64位系统还是32位系统,因为我的电脑是64位系统,所以我这里下载的是64位安装程序,若是32位系统,需要下载对应32位对应安装程序
查看电脑系统位数的方法,在桌面上右键我的电脑或是此电脑,选择属性,打开如下图页面可以查看电脑的位数
下载下来的安装包如下图所示
双击安装包进行安装,
等待安装完成
安装完成,点击close按钮
2.验证是否安装成功
在电脑左下角输入cmd,点击回车键, 打开电脑自带的命令提示符程序
输入python,点击回车,显示python版本信息,则说明安装成功,输入exit()退出
3.编写汉字统计脚本,进行汉字去重统计
将下述脚本在存在本地电脑上,假设存储目录为C:\Users\姓名\Desktop\wordCount\wordCount.py
#脚本说明
#该统计指定文档中去重汉字的数量,#号开头的未脚本说明
#需要将姓名替换为自己姓名路径
#指定要统计的文档路径,根据实际情况情况做修改
word_file_path = r'C:\Users\姓名\Desktop\wordCount\wordTest01.txt'
#下述代码首先打开需要统计的文档,然后对文档中的字符逐个进行判断,若是汉字,则加入到set集合中,
#set集合在存储过程中会进行再次判断,若这个字符在set中不存在,则加入,否则,不加入
words = [x for x in set(open(word_file_path, encoding='UTF-8').read()) if '\u4e00' <= x <= '\u9fff']
#打印出集合set的长度即为统计后的数字,len是length的缩写
print('去重后的汉字个数为:', len(words))
#若要打印出所有汉字,则把下述语句前面的#号去除
#print(words)
在电脑左下角输入cmd,点击回车键, 打开电脑自带的命令提示符程序,输入脚本执行命令,可以获取汉字去重统计后的结果