你真的会用Xpath

75 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

XPath基本使用

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文

档中对元素和属性进行遍历。

W3School 官方文档:www.w3school.com.cn/xpath/index…

在这里插入图片描述

选取节点

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。下面列出了最常用的路径表达式:

表达式描述
nodename选取此节点的所有子节点。
/从节点选取
//从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置
.选取当前节点。
..选取当前节点的父节点。
@选取属性。

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式
bookstore选取 bookstore 元素的所有子节点
/bookstore选取根元素 bookstore。/代表元素的绝对路径。
bookstore/book选取属于 bookstore 的子元素的所有 book 元素。
//book选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book选择属于 booksore 元素的后代所有的 book 元素,而不管他们位于 bookstore 之下的什么位置。
//@lang选取名为 lang 的所有属性。
text()取标签当中的值

谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。在下面

的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:

在这里插入图片描述

选取未知节点

在这里插入图片描述

选取若干路径

在这里插入图片描述

lxml模块

安装

pip install lxml

初步使用

1.解析Html字符串

XML 素材:www.cnblogs.com/zhangboblog…

在这里插入图片描述

结果:

在这里插入图片描述

**小结:**lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签

2.lxml文件读取

除了直接读取字符串,lxml 还支持从文件里读取内容。我们新建一个 hello.html 文件, 再利用 etree.parse()方法来读取文件

在这里插入图片描述

注意:从文件中读取数据,要求文件内容符合 xml 格式,如果标签缺失,则不能正常读取。

打印结果输入:

在这里插入图片描述

3.XPath 节点信息解析: 在这里插入图片描述

在这里插入图片描述 在这里插入图片描述