持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第14天,点击查看活动详情
requests请求模块6
写在前面
一个学生,请多多关照,希望能在掘金记录自己的学习历程!❤️
这一篇是接着上一篇的基础写的,也就是Python爬虫基础-requests模块-5这一篇,没有看过的请先去康康
代理服务
接着上次的,我们来讲讲代理服务
代理的应用
在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取的情况,这是因为您的ip被认为恶意爬取的网站服务器屏蔽了,此时,代理可以为您解决这一麻烦,设置代理时,需要先找到代理地址,例如117.88.176.38,对应的端口号为3000,完整的格式就是117.88.176.38:3000,示例代码如下:
import requests # 导入网络请求模块
# 头部信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/72.0.3626.121 Safari/537.36'}
proxy = {'http': 'http://117.88.176.38:3000',
'https': 'https://117.88.176.38:3000'} # 设置代理ip与对应的端口号
try:
# 对需要爬取的网页发送请求
response = requests.get('http://202020.ip138.com', headers= headers,proxies=proxy,verify=False,timeout=3)
print(response.status_code) # 打印响应状态码
except Exception as e:
print('错误异常信息为:',e) # 打印异常信息
由于示例中的代理IP是免费的,所以使用的时间不固定,超出使用的时间范围时该地址将失效,在地址错误或失效时,控制台将显示如下图所示的异常信息
如果要获取可用的代理IP可可以参考下一章Python爬虫基础-requests模块-6所讲述的内容
下一章会介绍如何获取免费的ip代理
写在后面
感谢观看啦✨
有什么不足,欢迎指出哦💖
掘金的运营同学审核辛苦了💗