利用简易python爬虫获取ACM高频词汇,方便大家记忆

551 阅读1分钟

简易说明 Simple introduce

本人特意整理的ACM必备词汇表,所有数据全部来源于各大ACM网站,并且已经按照单词出现次数从高到低排序,采集题目总数18317题。data目录为采集到的单词数据,crawler为爬虫源文件。

数据来源 Data source

来源 网址 对应文件名(data目录) 题数
杭州电子科技大学 acm.hdu.edu.cn/listproblem… hzdzkj.json 5216
浙江大学 acm.zju.edu.cn/onlinejudge… zj.json 2977
北京大学 poj.org/ bj.json 3054
电子科技大学 acm.uestc.edu.cn/#/ dzkj.json 1753
福州大学 acm.fzu.edu.cn/index.php fj.json 1283
AcDream acdream.info/problem/lis… acdream.json 773
acm hit acm.hit.edu.cn/hojx/proble… acmhit.json 3261
全部集合 all.json 18317

数据说明

文件名 说明
all.json 所有单词数据,未处理
all_filter_by_stop_words.json 所有单词数据,过滤停用词
cet4.json 4级单词词汇
cet6.json 6级单词词汇
stop_words.json 停用词列表
words_in_cet4.json 在4级词汇表中的ACM词汇
words_in_cet6.json 在6级词汇表中的ACM词汇

数据下载地址

json数据请去data目录下载

csv文件请去release下载,release中只提供all_filter_by_stop_words.json,words_in_cet4.json,words_in_cet6.json的csv文件,如有需要,请自行写python语言,范本在exporter.py