[爬虫]1.3.1 使用requests库发送HTTP请求Python的requests库是一个非常流行的用于发送HTT

Python的requests库是一个非常流行的用于发送HTTP请求的库。它的接口设计得非常简洁明了，使得发送HTTP请求变得非常简单。

首先，你需要安装requests库。你可以通过pip来安装：

pip install requests

发送GET请求

在网络爬虫中，我们最常见的操作就是发送GET请求，获取网页的HTML数据。以下是一个简单的例子：

import requests

response = requests.get('https://www.example.com')

print(response.text)

在这个例子中，我们首先导入了requests库，然后使用requests.get()函数发送了一个GET请求到https://www.example.com，然后打印出了响应的文本数据。

发送POST请求

有些时候，我们需要发送POST请求，例如登录一个网站。以下是一个简单的例子：

import requests

data = {'username': 'myname', 'password': 'mypassword'}

response = requests.post('https://www.example.com/login', data=data)

print(response.text)

在这个例子中，我们首先定义了一个字典data，包含了我们要发送的表单数据，然后将这个字典传递给requests.post()函数，发送了一个POST请求。

设置请求头部

有些网站会检查请求的头部，例如User-Agent，如果不设置或者设置不正确，可能会被网站拒绝。所以在发送请求时，我们通常会设置一些常见的头部。以下是一个例子：

import requests

headers = {'User-Agent': 'Mozilla/5.0'}

response = requests.get('https://www.example.com', headers=headers)

print(response.text)

在这个例子中，我们定义了一个字典headers，包含了我们要设置的头部，然后将这个字典传递给requests.get()函数。

处理响应

发送请求后，我们会得到一个Response对象。这个对象包含了响应的所有信息，例如状态码、头部和数据。

使用response.status_code可以获取响应的状态码。
使用response.headers可以获取响应的头部。
使用response.text可以获取响应的文本数据。
使用response.json()可以获取响应的JSON数据。

以上就是requests库的基础使用方法。使用requests库，我们可以非常容易地发送HTTP请求，获取网页数据，是进行网络爬虫的必备技能。推荐阅读：

mp.weixin.qq.com/s/dV2JzXfgj…

mp.weixin.qq.com/s/an83QZOWX…

file