Python爬虫入门(豆瓣电影top250爬虫)存入Excel表格(适合初学者)附:新模块的使用和面向对象模板

279 阅读2分钟

新模块的使用:

        首先,我们知道爬虫在编辑的时候很容易被反爬机制检测到导致响应失败,所以每次我们都要进行伪装ua请求头,可能会浪费一些时间导致效率不高,于是requests模块的作者在疫情期间升级了该模块,包装了xpath并且附带了ua请求头。即request_html,下载也很简单,只需要在 image.png 输入pip install requests_html即可使用啦

模板代码的使用:

        我们写代码时经常要做重复性的操作,所以我们可以写好模板写爬虫时快速使用,话不多 说咱们上代码

那我们开始今天的爬虫吧!

首先我们要清楚爬虫的具体步骤:

爬虫四步:                 1、明确目标url                   2、发起请求 获取响应                 3、响应里面取出数据                 4、存储数据

一、明确目标url

今天需要的是爬取豆瓣评分电影top250就是这个网站: 豆瓣电影 Top 250 首先我们发现页面有十页,先f12打开开发者工具,获取第二页响应,去寻找翻页规律,可以发现第二页: 豆瓣电影 Top 250 第三页: 豆瓣电影 Top 250 不难发现我们的翻页规律为start累加25 先导包: 然后掏出我们的模板代码,并且将翻页规律给写出来 print(response.text)可以看到我们正常获取了响应 开始书写取数据的函数(我们这里用xpath进行书写):

四、保存数据

发现数据可以被取出后我们进行保存: 这里说明一下存到Excel表格内有数据要求即 data{ '表名':[数据] } 如果不按要求写data很难将数据保存在Excel表格内!!而且在书写时注意Excel表名要与上面data数据一致,否则数据难以保存。 然后运行发现数据保存成功!这就是咱们第一个实战小项目啦!