HTML和CSS基础: HTML标签与属性

149 阅读2分钟

HTML标签与属性教程

欢迎来到HTML标签与属性的基础教程。本教程旨在介绍HTML的核心组成部分—标签与属性,并通过实例来帮助你理解它们在网页结构中的作用。掌握HTML是进行网页数据提取的第一步,也是构建有效爬虫的关键。

1. HTML简介

  • HTML(HyperText Markup Language)是一种用于创建网页的标准标记语言。
  • HTML文档由一系列元素组成,这些元素通过标签来定义,标签可以拥有属性

2. HTML标签

  • 标签通常成对出现,例如一个开始标签<tag>和一个结束标签</tag>。有些标签是自闭合的,比如<img /><br />
  • 每个HTML文档都有一定的结构,包括<!DOCTYPE html><html><head><body>等基本标签。

3. 常用HTML标签

  • 标题标签 (<h1><h6>): 定义了六级标题。
  • 段落标签 (<p>): 定义了文本段落。
  • 链接标签 (<a>): 用于定义超链接。
  • 图片标签 (<img>): 用于嵌入图片。
  • 列表标签 (<ul><ol><li>): 分别用于无序列表、有序列表和列表项。
  • 表格标签 (<table><tr><th><td>): 用于创建表格。

4. HTML属性

  • 属性提供了关于HTML元素的额外信息,它总是写在开始标签中,格式为属性名="属性值"
  • 常见的HTML属性包括idclasssrc(用于<img>)、href(用于<a>)等。

5. 实例讲解

让我们通过一些简单的示例来深入了解HTML标签和属性。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>示例网页</title>
</head>
<body>

    <!-- 标题 -->
    <h1>这是一个H1标题</h1>

    <!-- 段落 -->
    <p>这是一个段落,它介绍了一些文本。</p>

    <!-- 链接 -->
    <a href="https://www.example.com" target="_blank">访问Example网站</a>

    <!-- 图片 -->
    <img src="path/to/image.jpg" alt="描述性文本" />

    <!-- 无序列表 -->
    <ul>
        <li>列表项1</li>
        <li>列表项2</li>
        <li>列表项3</li>
    </ul>

    <!-- 表格 -->
    <table border="1">
        <tr>
            <th>表头1</th>
            <th>表头2</th>
        </tr>
        <tr>
            <td>单元格1</td>
            <td>单元格2</td>
        </tr>
    </table>

</body>
</html>

在这个例子中,我们创建了一个包含各种常见标签和属性的简单HTML文档。每个标签都担任一定的角色,比如<h1>定义了最高级的标题,<a>定义了一个链接,属性href指定了链接的目的地。

6. 总结

了解HTML标签和属性对于进行网页爬取是非常重要的,因为数据通常是通过特定的标签和属性来组织的。当你使用Python中的爬虫库(如BeautifulSoup)来解析HTML文档时,你将依赖于这些基础知识来选择和提取所需的数据。

在继续前往更高级的爬虫技术之前,请确保你对HTML的这些基础有一个坚实的理解。这将大大有助于你在爬虫开发中的进步。