web爬虫系列（二）– 必备知识随着爬虫技术和应用的普及，爬虫和反爬这两个冤家可以说是道高一尺魔高一丈，一直在互相较量。

一、再谈爬虫

随着爬虫技术和应用的普及，爬虫和反爬这两个冤家可以说是道高一尺魔高一丈，一直在互相较量。作为爬虫小白的我在这不敢妄谈反爬，我们接着说爬虫，爬虫会涉及到一门学科-逆向工程，对于客户端爬虫（android、ios、pc）来说是必不可少的，所以说爬虫也是一个坑，越挖越深，但是web爬虫就相对简单一点了。web爬虫首先必须对前端要有所了解，至少要知道什么是div+css，什么是Ajax。这些网上教程已经烂大街了，本篇我们聊聊另一个必备知识XPath的基本使用。

二、什么是XPath

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

上一篇示例中就已经用到了XPath解析页面内容。web爬虫系列（一）- 爬取电影天堂迅雷地址

三、如何使用

Html html = page.getHtml();

Html是爬取到的整个页面的DOM，将从这里获取到所有我们想要的数据。

1、节点（Node）

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
 <title lang="en">Harry Potter</title>
 <author>J K. Rowling</author> 
 <year>2005</year>
 <price>29.99</price>
</book>
</bookstore>

<bookstore> //文档节点
<author>J K. Rowling</author> //元素节点
lang="en" //属性节点

2、语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。以上面的xml为例。

2.1、路径表达式

表达式	说明
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

2.2、谓语

用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中

表达式	说明
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素
//title[@lang=’eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性

2.3、获取未知节点（通配符）

表达式	说明
*	匹配任何元素节点（/bookstore/* 选取 bookstore 元素的所有子元素）
@*	匹配任何属性节点（//title[@*] 选取所有带有属性的 title 元素）
node()	匹配任何类型的节点

3、实战演练（以第一篇电影天堂为例）

3.1、获取class=co_content2节点

html.xpath("//div[@class='co_content2']")

3.2、获取class=co_content2下ul下所有的a标签

html.xpath("//div[@class='co_content2']/ul/a").nodes()

3.3、获取a标签的链接

linkNode.xpath("a//@href").get()
linkNode.links().get()

3.4、获取class=”title_all”下的p标签的文本信息

html.xpath("//div[@class='title_all']/p/text()").get()

3.5、绝招（用浏览器自带审查元素工具）

举个栗子：获取掘金logo的xpth

得到：

//*[@id=”juejin”]/div[2]/div/header/div/a/img

四、乱弹琴

水平有限，讲解的可能不是很清楚，欢迎交流。