Python的requests库是一个非常流行的用于发送HTTP请求的库。它的接口设计得非常简洁明了,使得发送HTTP请求变得非常简单。
首先,你需要安装requests库。你可以通过pip来安装:
pip install requests
发送GET请求
在网络爬虫中,我们最常见的操作就是发送GET请求,获取网页的HTML数据。以下是一个简单的例子:
import requests
response = requests.get('https://www.example.com')
print(response.text)
在这个例子中,我们首先导入了requests库,然后使用requests.get()函数发送了一个GET请求到https://www.example.com,然后打印出了响应的文本数据。
发送POST请求
有些时候,我们需要发送POST请求,例如登录一个网站。以下是一个简单的例子:
import requests
data = {'username': 'myname', 'password': 'mypassword'}
response = requests.post('https://www.example.com/login', data=data)
print(response.text)
在这个例子中,我们首先定义了一个字典data,包含了我们要发送的表单数据,然后将这个字典传递给requests.post()函数,发送了一个POST请求。
设置请求头部
有些网站会检查请求的头部,例如User-Agent,如果不设置或者设置不正确,可能会被网站拒绝。所以在发送请求时,我们通常会设置一些常见的头部。以下是一个例子:
import requests
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get('https://www.example.com', headers=headers)
print(response.text)
在这个例子中,我们定义了一个字典headers,包含了我们要设置的头部,然后将这个字典传递给requests.get()函数。
处理响应
发送请求后,我们会得到一个Response对象。这个对象包含了响应的所有信息,例如状态码、头部和数据。
- 使用
response.status_code可以获取响应的状态码。 - 使用
response.headers可以获取响应的头部。 - 使用
response.text可以获取响应的文本数据。 - 使用
response.json()可以获取响应的JSON数据。
以上就是requests库的基础使用方法。使用requests库,我们可以非常容易地发送HTTP请求,获取网页数据,是进行网络爬虫的必备技能。 推荐阅读: