爬虫 学习HTML标签和元素的基本概念,了解网页的结构和内容

41 阅读2分钟

HTML(Hypertext Markup Language)是一种用于创建网页的标记语言,由一系列的标签组成。标签使用尖括号(< 和 >)包围,并且通常成对出现,一个是开始标签,一个是结束标签。

HTML文档的基本结构如下:


<!DOCTYPE html>
<html>
<head>
  <title>页面标题</title>
</head>
<body>
  页面内容...
</body>
</html>



<!DOCTYPE html>:声明文档类型为HTML5。

<html>:表示HTML文档的根元素。

<head>:该元素用于定义文档的头部信息,包括页面标题、引入外部样式表和脚本等。

<title>:用于定义页面的标题,会显示在浏览器的标题栏或标签页中。

<body>:HTML文档的主体内容。


在<body>元素中,可以使用不同的标签来组织和呈现网页的内容。一些常见的HTML标签及其作用如下:



<h1><h6>:定义标题,从大到小表示不同级别的标题。

<p>:定义段落。

<a>:定义超链接,通常用于跳转到其他页面或锚点位置。

<img>:插入图像,指定图片的URL、宽度和高度等属性。

<ul><ol>:定义无序列表和有序列表。

<li>:定义列表项。

<div>:用于将文档分割为独立的区块,可用于布局和样式分组。

<span>:用于在行内文本中应用样式或标记特殊内容。

此外,还有一些特殊的标签和属性用于添加特定功能或样式:

<header><nav><main><footer>等:用于定义网页的不同部分,方便搜索引擎和辅助技术的理解。

<table><tr><td>等:用于创建表格。

<form><input><button>等:用于创建表单,接收用户输入。

<style>:用于定义内部样式表。

<script>:用于引入JavaScript代码。

id和class属性:用于标识和选择具有相同样式或功能的元素。

通过使用HTML标签和属性,我们可以构建出具有结构化和语义化的网页内容。爬虫就是利用这些HTML标签和内容来解析和提取所需的数据。

本文由mdnice多平台发布