Python爬虫基础-requests模块-6

102 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第14天,点击查看活动详情

requests请求模块6

写在前面

一个学生,请多多关照,希望能在掘金记录自己的学习历程!❤️

这一篇是接着上一篇的基础写的,也就是Python爬虫基础-requests模块-5这一篇,没有看过的请先去康康

代理服务

接着上次的,我们来讲讲代理服务

代理的应用

在爬取网页的过程中,经常会出现不久前可以爬取的网页现在无法爬取的情况,这是因为您的ip被认为恶意爬取的网站服务器屏蔽了,此时,代理可以为您解决这一麻烦,设置代理时,需要先找到代理地址,例如117.88.176.38,对应的端口号为3000,完整的格式就是117.88.176.38:3000,示例代码如下:

import requests      # 导入网络请求模块
# 头部信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                         'AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/72.0.3626.121 Safari/537.36'}
proxy = {'http': 'http://117.88.176.38:3000',
         'https': 'https://117.88.176.38:3000'}  # 设置代理ip与对应的端口号
try:
    # 对需要爬取的网页发送请求
    response = requests.get('http://202020.ip138.com', headers= headers,proxies=proxy,verify=False,timeout=3)
    print(response.status_code)  # 打印响应状态码
except Exception as e:
    print('错误异常信息为:',e)    # 打印异常信息

由于示例中的代理IP是免费的,所以使用的时间不固定,超出使用的时间范围时该地址将失效,在地址错误或失效时,控制台将显示如下图所示的异常信息 image.png 如果要获取可用的代理IP可可以参考下一章Python爬虫基础-requests模块-6所讲述的内容 下一章会介绍如何获取免费的ip代理

写在后面

感谢观看啦✨
有什么不足,欢迎指出哦💖
掘金的运营同学审核辛苦了💗