Xpath基础

1. 单点`.`和双点`..`的概念

由于html是标记语言，所以他是没有报错机制以及严格的格式检测。但是 xpath有极其严格的语言和检测，所以xpath的书写通常需要包容html的不规则语言。
html标签的id属性具有唯一性，class具有通用性，而且空格是可以随意添加的。如果不能精确匹配到某一个具体的字符串，xpath可以采用包含检测的函数来指定大致的标签。
举例：.//div[contains(@class,"content")]
如果id为content的div标签，content字符串前后有多个空格，且很不规则，这里可以使用contains函数对id属性的值检测，只要里面包含了content字符串，就是我们需要的目标标签。

在爬虫的编写过程中，html都不会是特别简短的，而且大多特别的长，又乱。class的通用性，导致一个contains检测会拿到非常多不需要的标签，所以常常需要更严格的筛选操作。
xpath同样支持与或非的操作，通过与或非 contains的组合使用，大部分的需要都是可以实现的。 |逻辑| 与 | 或 | 非 | |:------:|:------:|:------------:|:------------:| |关键字| and | or | not() | |示例| .//div[@id and @class]|.//div[@id or @class] | .//div[not(@id)]| |示例解释| 同时拥有id和class属性的div | 有id或者class属性的div| 没有id属性的div|

通过属性来选取标签，都是通配的标签，只要符合要求，就可以获取。当然还有一种的话，就是一排标签，只有第几个或者某个范围的标签可用，这样的话就需要指定位置或者对位置进行判断。