[爬虫]1.3.1 使用requests库发送HTTP请求

211 阅读2分钟

Python的requests库是一个非常流行的用于发送HTTP请求的库。它的接口设计得非常简洁明了,使得发送HTTP请求变得非常简单。

首先,你需要安装requests库。你可以通过pip来安装:

pip install requests

发送GET请求

在网络爬虫中,我们最常见的操作就是发送GET请求,获取网页的HTML数据。以下是一个简单的例子:

import requests

response = requests.get('https://www.example.com')

print(response.text)

在这个例子中,我们首先导入了requests库,然后使用requests.get()函数发送了一个GET请求到https://www.example.com,然后打印出了响应的文本数据。

发送POST请求

有些时候,我们需要发送POST请求,例如登录一个网站。以下是一个简单的例子:

import requests

data = {'username': 'myname', 'password': 'mypassword'}

response = requests.post('https://www.example.com/login', data=data)

print(response.text)

在这个例子中,我们首先定义了一个字典data,包含了我们要发送的表单数据,然后将这个字典传递给requests.post()函数,发送了一个POST请求。

设置请求头部

有些网站会检查请求的头部,例如User-Agent,如果不设置或者设置不正确,可能会被网站拒绝。所以在发送请求时,我们通常会设置一些常见的头部。以下是一个例子:

import requests

headers = {'User-Agent': 'Mozilla/5.0'}

response = requests.get('https://www.example.com', headers=headers)

print(response.text)

在这个例子中,我们定义了一个字典headers,包含了我们要设置的头部,然后将这个字典传递给requests.get()函数。

处理响应

发送请求后,我们会得到一个Response对象。这个对象包含了响应的所有信息,例如状态码、头部和数据。

  • 使用response.status_code可以获取响应的状态码。
  • 使用response.headers可以获取响应的头部。
  • 使用response.text可以获取响应的文本数据。
  • 使用response.json()可以获取响应的JSON数据。

以上就是requests库的基础使用方法。使用requests库,我们可以非常容易地发送HTTP请求,获取网页数据,是进行网络爬虫的必备技能。 推荐阅读:

mp.weixin.qq.com/s/dV2JzXfgj…

mp.weixin.qq.com/s/an83QZOWX…

file