微信公众号:萝卜大杂烩,欢迎关注
当前正值开学季,各个心怀梦想的学子们都迈入了自己理想中的大学。只是当我们站在象牙塔前,再回首凝望高中生活,一路走来,是不是会感慨万千呢。都说高考是普通大众改变命运的最好的阶梯,那么大学就是培养能力,形成品格的试验田,而通向这块田地的之路却并不平坦。尤其是一些高考大省的小伙伴儿们,是经历了怎样的拼搏,才一路拼杀过来的呢。
这里就涉及到了各个省份的招生标准和各省的高校资源情况了,毕竟每个省的高校,在本省的招生数量既多,要求又低(差不多是这样...)。
都说高考其实是相对公平的选拔,那么今天我们就用数据来说话,看看全国的教育资源,高校分布到底是怎样,哪里的小伙伴相对来说,更容易踏入大学的校门呢。
数据获取
这里我选择的是“高考网”作为我数据的来源
网站很简单,也没有任何的反爬机制,直接分析页面,获取并保存数据就可以了 这里直接给出代码,不关心数据获取过程的小伙伴儿可以跳过此部分
import requests
from bs4 import BeautifulSoup
import os
import time
def get_data():
for i in range(1, 108):
print("正在下载第%s页数据" % i)
url = 'http://college.gaokao.com/schlist/p%s' % i
res = requests.get(url).text
content = BeautifulSoup(res, "html.parser")
college_list = content.find('div', attrs={'class': 'scores_List'}).find_all('dl')
items = map(parse_item, college_list)
save_to_csv(items)
time.sleep(1)
def parse_item(item):
college_name = item.find('strong')['title']
college_attr = item.find_all('li')
college_site = college_attr[0].text[6:]
college_title = college_attr[1].text[5:]
college_type = college_attr[2].text[5:]
college_belong = college_attr[3].text[5:]
college_nature = college_attr[4].text[5:]
college_website = college_attr[5].text[5:]
result = {
'college_name': college_name,
'college_site': college_site,
'college_title': college_title,
'college_type': college_type,
'college_belong': college_belong,
'college_nature': college_nature,
'college_website': college_website
}
return result
def save_to_csv(data):
if not os.path.exists(r'college_data.csv'):
with open('college_data.csv', 'a+', encoding='utf-8') as f:
f.write('name,site,title,type,belong,nature,website\n')
for d in data:
try:
row = '{},{},{},{},{},{},{}'.format(d['college_name'],
d['college_site'],
d['college_title'],
d['college_type'],
d['college_belong'],
d['college_nature'],
d['college_website'])
f.write(row)
f.write('\n')
except:
continue
else:
with open('college_data.csv', 'a+', encoding='utf-8') as f:
for d in data:
try:
row = '{},{},{},{},{},{},{}'.format(d['college_name'],
d['college_site'],
d['college_title'],
d['college_type'],
d['college_belong'],
d['college_nature'],
d['college_website'])
f.write(row)
f.write('\n')
except:
continue
if __name__ == '__main__':
get_data()
我们来看下最后拿到的数据
高校总数量排行
先不考虑高校质量、级别等因素,单单从高校数量方面来看下各个省份的排名情况
排行榜
总体排名
高校数量前十
高校数量后十
能够看到,高校数量靠前的省份为江苏、山东、湖北、广东,这些可都是高考大省,同时高校数量也是非常多的。而更加著名的高考大省河南河北,同样也有着不错的高校数量,看来这些省份虽然考生多,但是要想考上本省的一个大学,还是比较有优势的。 但是对于贵州、内蒙、青海,西藏等地区的考生来说,高考考出省,也许会是个不错的选择哦。
全国高校热力图
我们再通过一张热力图来看看全国大学的分布情况
地区高校数量段位
高校质量排行
前面的高校数量分析,并没有考虑高校的质量,即该省份拥有985,211高校的数量。现在就来分析下从高质量高校层面分析,哪些省份又排名靠前呢
高质量高校数量排行
985高校排行
211高校排行
985211高校综合
我们再把拥有985和211高校的省份综合起来看
高质量高校热力分布图
各地区高质量高校占比
北京高质量高校占比
高质量高校三巨头占比
占比前十城市高质量高校占比
你所在的省份,有优势吗?
高校类别及属性分布
最后,我们再来看看,各种类型及不同属性的高校分布情况
不知道看了上面的分析,你想要报考哪种院校呢?
所有的代码都上传到 GitHub 上了,想要的自提