一、再谈爬虫
随着爬虫技术和应用的普及,爬虫和反爬这两个冤家可以说是道高一尺魔高一丈,一直在互相较量。作为爬虫小白的我在这不敢妄谈反爬,我们接着说爬虫,爬虫会涉及到一门学科-逆向工程,对于客户端爬虫(android、ios、pc)来说是必不可少的,所以说爬虫也是一个坑,越挖越深,但是web爬虫就相对简单一点了。web爬虫首先必须对前端要有所了解,至少要知道什么是div+css,什么是Ajax。这些网上教程已经烂大街了,本篇我们聊聊另一个必备知识XPath的基本使用。
二、什么是XPath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
上一篇示例中就已经用到了XPath解析页面内容。web爬虫系列(一)- 爬取电影天堂迅雷地址
三、如何使用
Html html = page.getHtml();
Html是爬取到的整个页面的DOM,将从这里获取到所有我们想要的数据。
1、节点(Node)
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
<bookstore> //文档节点
<author>J K. Rowling</author> //元素节点
lang="en" //属性节点
2、语法
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。以上面的xml为例。
2.1、路径表达式
| 表达式 | 说明 |
|---|---|
| nodename | 选取此节点的所有子节点 |
| / | 从根节点选取 |
| // | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 |
| . | 选取当前节点 |
| .. | 选取当前节点的父节点 |
| @ | 选取属性 |
2.2、谓语
用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中
| 表达式 | 说明 |
|---|---|
| /bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素 |
| //title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素 |
| //title[@lang=’eng’] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性 |
2.3、获取未知节点(通配符)
| 表达式 | 说明 |
|---|---|
| * | 匹配任何元素节点(/bookstore/* 选取 bookstore 元素的所有子元素) |
| @* | 匹配任何属性节点(//title[@*] 选取所有带有属性的 title 元素) |
| node() | 匹配任何类型的节点 |
3、实战演练(以第一篇电影天堂为例)
3.1、获取class=co_content2节点
html.xpath("//div[@class='co_content2']")
3.2、获取class=co_content2下ul下所有的a标签
html.xpath("//div[@class='co_content2']/ul/a").nodes()
3.3、获取a标签的链接
linkNode.xpath("a//@href").get()
linkNode.links().get()
3.4、获取class=”title_all”下的p标签的文本信息
html.xpath("//div[@class='title_all']/p/text()").get()
3.5、绝招(用浏览器自带审查元素工具)
举个栗子:获取掘金logo的xpth
得到:
//*[@id=”juejin”]/div[2]/div/header/div/a/img
四、乱弹琴
水平有限,讲解的可能不是很清楚,欢迎交流。