Requests库--爬虫入门进阶版

101 阅读2分钟

我正在参与掘金创作者训练营第6期,点击了解活动详情

前言: 上一篇文章博主介绍的是 爬虫常用库 urllib库, 这篇文章 博主分享的是其的进阶版 Requests库。 其实 Requests 库就是在 urllib 的基础上开发而来,与 urllib 相比,Requests 更加方便、快捷,因此在编写爬虫程序时 Requests 库使用较多。

常用的俩个请求方法

requests.get()

该方法用于 GET 请求,表示向网站发起请求,获取页面响应对象还包括 响应码哈。

res = requests.get(url,headers=headers,params,timeout)参数说明:

url:要抓取的 url 地址。

headers:用于包装请求头信息。

params:请求时携带的查询字符串参数。

timeout:超时时间,超过时间会抛出异常。

这里给一个简单的小案例

import requests
url = 'http://baidu.com'
response = requests.get(url)
print(response)

建议小伙伴们 可以将上面的每一个属性都尝试一下

requests.post()

这个方法用于 POST 请求,先由用户向目标 url 提交数据,然后服务器返回一个响应对象

response=requests.post(url,data={请求体的字典})

import requests
url = 'https://fanyi.baidu.com'
response = requests.post(url)
print(response)

如果要使用data的话,可通过开发者调试工具查看,查看post请求体携带的参数

常见对象属性

在使用 Requests 模块向一个 URL 发起请求后会返回一个 HttpResponse 响应对象,这个对象有下面一些属性:

status_code返回HTTP响应码

url查看请求的 url 地址

headers查看请求头信息

上面这几个基本的属性使用的较少,但是 他们是超级基本的😂,所以,博主这里也给了

text以字符串形式输出

encoding查看或者指定响应字符编码

cookies查看cookies 信息

content以字节流形式输出,若要保存下载图片需使用该属性。

这几个是新手比较常用的属性,其中一定要留神最后一个属性 因为当时博主就在上面吃过亏😭

这里建议小伙伴们多动手实践一下