2024,Python爬虫系统入门与多领域实战

84 阅读2分钟

2024,Python爬虫系统入门与多领域实战

187ec12b0836487cac2b6a1a3c4b59ec~tplv-73owjymdk6-jj-mark-v1_0_0_0_0_5o6Y6YeR5oqA5pyv56S-5Yy6IEAg55So5oi3NTcyNDQ5NTYxNTY=_q75.webp

2024,Python爬虫系统入门与多领域实战

获取ZY↑↑方打开链接↑↑

在 Python 爬虫中,响应的数据格式通常有多种,常见的包括 HTML、XML、JSON 等。以下是对这些数据格式的说明和解析方式:

一、HTML 格式

  1. 数据格式说明:
  • HTML(超文本标记语言)是用于创建网页的标准标记语言。它由一系列的标签和属性组成,用于定义网页的结构和内容。

  • 当使用爬虫获取网页内容时,响应通常是 HTML 格式的文本。

  • 解析方式:

  • 使用 BeautifulSoup 库:BeautifulSoup 是一个强大的 Python 库,用于解析 HTML 和 XML 文档。它提供了简单易用的函数和方法,方便从 HTML 中提取所需的信息。

  • 示例代码:

from bs4 import BeautifulSoup
import requests

response = requests.get('example.com')
soup = BeautifulSoup(response.text, 'html.parser')

提取标题

title = soup.title.string
print(title)

提取所有链接

links = soup.find_all('a')
for link in links:
print(link.get('href'))

二、XML 格式

  1. 数据格式说明:
  • XML(可扩展标记语言)是一种用于存储和传输数据的标记语言。它具有良好的结构性和可扩展性,可以自定义标签和属性。

  • XML 文档通常由元素、属性和文本组成,以树形结构组织。

  • 解析方式:

  • 使用 ElementTree 库:ElementTree 是 Python 标准库中的一个模块,用于处理 XML 数据。它提供了简单的 API,方便遍历和操作 XML 文档。

  • 示例代码:

import xml.etree.ElementTree as ET

xml_data = """\ \ Item 1\ 10.99\ \ \ Item 2\ 15.99\ \ """

root = ET.fromstring(xml_data)

提取所有 item 元素

items = root.findall('item')
for item in items:
name = item.find('name').text
price = item.find('price').text
print(f"Name: {name}, Price: {price}")

三、JSON 格式

  1. 数据格式说明:
  • JSON(JavaScript 对象表示法)是一种轻量级的数据交换格式。它以键值对的形式表示数据,易于阅读和编写,也易于机器解析和生成。

  • JSON 数据可以表示对象、数组、字符串、数字、布尔值和 null 等数据类型。

  • 解析方式:

  • 使用 json 库:Python 的 json 库提供了函数用于将 JSON 字符串转换为 Python 对象,以及将 Python 对象转换为 JSON 字符串。

  • 示例代码:

import requests
import json

response = requests.get('example.com/api/data')
data = json.loads(response.text)

提取数据中的某个字段

value = data['key']
print(value)

此外,还有其他一些数据格式,如 CSV(逗号分隔值)、TXT(纯文本)等,可以根据具体情况选择合适的解析方式。在解析数据时,需要根据数据的结构和格式,选择合适的库和方法,以高效地提取所需的信息。

举报/反馈