常见的四类HTTP状态码介绍

25 阅读2分钟

在用户日常使用爬虫抓取数据的过程中,经常会接受到各种类型的HTTP状态码,有些状态码意味着爬虫程序正在平稳运行,而有些状态码就标注了目前爬虫工作所遇到的各类问题。对于爬虫工作者而言,了解HTTP状态码所代表的意义尤为关键。

图片1.png 2XX状态码****

所有以2开头的代码都表示用户的请求已成功处理,如果用户的爬虫收到2XX代码,则表明一切正常,爬虫正在平稳运行。

3XX状态码****

所有以3开头的问题都表示重定向。300代码表示重定向是由于对用户的请求的多个可能响应而发生的。例如,301错误表明某个页面已被移动,这就是连接被重定向的原因。

此类代码是服务器误解用户请求的结果。通常,大多数3XX错误可以通过指定代理的用户代理来解决。

4XX状态码****

4XX状态码是一组客户端错误,往往是因为服务器无法理解用户的请求或者用户权限问题所导致的。

401错误表明用户没有查看该页面的权限;403错误表明服务器由于某种原因不允许用户查看该页面;404错误表示未找到用户请求的页面;407是隧道连接失败或用户没有提供足够的授权数据;429错误表明爬虫在短时间内使用一个IP地址发送了太多请求。

5XX状态码****

这组错误表明服务器存在一些问题,其中502状态码是用户平时遇到最多的,意味着网关错误或超时,其中一台服务器从另一台服务器接收到无效响应。