每年的六七月份都是考试季,毕业季,其中大家最为关注的就是高考。高考这特殊的热搜体质,最近和它相关的事件频频霸占各大平台的热搜榜。这不,各大高校为了招生都拿出自己的看家本领,这史上最强招生简章还得数各高校的校花帅哥莫属。鱼这就带你去爬一爬这“最强招生简章”,走起~
相信大家都听说过“爬虫”,但是爬虫到底是什么呢?我们每天使用的互联网如同一张巨大的蜘蛛网,大家可以把网线想象成蜘蛛网上的根根蜘蛛丝。正是这些蜘蛛丝把我们的电脑连在了一起。数据就存放在蜘蛛网的各个交接节点上,爬虫,顾名思义,就是小小的虫,蜘蛛,沿着蜘蛛丝去获取我们想要的数据。从技术层面来说就是,通过程序模拟浏览器请求站点的行为,把站点返回的各种类型的数据存在本地,进而筛选出自己想要的数据,存取起来使用。
爬虫所需要的工具: 请求库:requests,selenium(可以驱动浏览器解析渲染CSS和JS(有用没用的网页都会加载))
解析库:正则,beautifulsoup,pyquery
存储库:文件,MySQL,Mongodb,Redis
校花网:www.xiaohuar.com/list-1-0.ht… 我们以校花网为爬取对象,爬取图片信息
建立爬虫:
定义好爬虫的基本信息后,定义prase函数来处理爬虫信息
通过查看网页信息,可以很清楚的知道我们爬取照片的信息,在照片信息里面有一个图片地址,但是这并不是图片的真正地址,图片的真正地址需要加上校花网的主页地址,当你把这个真正的图片地址输入浏览器时,就可以很清楚的看到图片的原图了,右击可以另存为,但是我们不会一个一个照片的保存
保存照片到本地 scrapy自带图片保存的中间组件,但是使用起来,比较麻烦,我们自己写pipeline来保存照片
python自带urllib,也可以使用urllib来做爬虫,在此我们定义 了一个headers
headers:
在使用python爬虫爬取数据的时候,经常会遇到一些网站的反爬虫措施,一般就是针对于headers中的User-Agent,如果没有对headers进行设置,User-Agent会声明自己是python脚本,而如果网站有反爬虫的想法的话,必然会拒绝这样的连接。而修改headers可以将自己的爬虫脚本伪装成浏览器的正常访问,来避免这一问题。
快去Python一波试试手吧!看看有没有心仪的高校女神!!