Beautiful Soup库代码示例

54 阅读1分钟

微信图片_20230808094553.png Beautiful Soup库的下载程序:

import requests
from bs4 import BeautifulSoup

# 设置
proxy_host = 
proxy_port = 
proxy_url = f'http://{proxy_host}:{proxy_port}'
proxy_handler = requests.ProxyHandler({ 'http': proxy_url, 'https': proxy_url })
session = requests.Session()
session.proxies = proxy_handler.proxies

# 发送GET请求
response = session.get(')

# 使用Beautiful Soup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')

# 打印HTML内容
print(soup.prettify())

代码解释:

  1. 导入requests和BeautifulSoup库。
  2. 设置代理。使用requests.ProxyHandler类设置,并将地址存储在proxy_handler对象中。然后,创建一个Session对象,并将proxy_handler对象的代理地址设置为Session对象的地址。
  3. 使用Session对象发送GET请求,并获取响应。
  4. 使用BeautifulSoup解析响应的HTML内容。
  5. 打印解析后的HTML内容。