web爬虫系列(二)– 必备知识

277 阅读3分钟

一、再谈爬虫

随着爬虫技术和应用的普及,爬虫和反爬这两个冤家可以说是道高一尺魔高一丈,一直在互相较量。作为爬虫小白的我在这不敢妄谈反爬,我们接着说爬虫,爬虫会涉及到一门学科-逆向工程,对于客户端爬虫(android、ios、pc)来说是必不可少的,所以说爬虫也是一个坑,越挖越深,但是web爬虫就相对简单一点了。web爬虫首先必须对前端要有所了解,至少要知道什么是div+css,什么是Ajax。这些网上教程已经烂大街了,本篇我们聊聊另一个必备知识XPath的基本使用。

二、什么是XPath

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

上一篇示例中就已经用到了XPath解析页面内容。web爬虫系列(一)- 爬取电影天堂迅雷地址

三、如何使用

Html html = page.getHtml();

Html是爬取到的整个页面的DOM,将从这里获取到所有我们想要的数据。

1、节点(Node)

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
 <title lang="en">Harry Potter</title>
 <author>J K. Rowling</author> 
 <year>2005</year>
 <price>29.99</price>
</book>
</bookstore>

<bookstore> //文档节点
<author>J K. Rowling</author> //元素节点
lang="en" //属性节点

2、语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。以上面的xml为例。

2.1、路径表达式

表达式说明
nodename
选取此节点的所有子节点
/
从根节点选取
//
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置
.
选取当前节点
..选取当前节点的父节点
@选取属性

2.2、谓语

用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中

表达式说明
/bookstore/book[1]
选取属于 bookstore 子元素的第一个 book 元素
//title[@lang]
选取所有拥有名为 lang 的属性的 title 元素
//title[@lang=’eng’]
选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性

2.3、获取未知节点(通配符)

表达式说明
*匹配任何元素节点(/bookstore/* 选取 bookstore 元素的所有子元素)
@*匹配任何属性节点(//title[@*] 选取所有带有属性的 title 元素)
node()匹配任何类型的节点

3、实战演练(以第一篇电影天堂为例)

3.1、获取class=co_content2节点

html.xpath("//div[@class='co_content2']")


3.2、获取class=co_content2下ul下所有的a标签

html.xpath("//div[@class='co_content2']/ul/a").nodes()


3.3、获取a标签的链接

linkNode.xpath("a//@href").get()
linkNode.links().get()


3.4、获取class=”title_all”下的p标签的文本信息

html.xpath("//div[@class='title_all']/p/text()").get()


3.5、绝招(用浏览器自带审查元素工具)

举个栗子:获取掘金logo的xpth


得到:

//*[@id=”juejin”]/div[2]/div/header/div/a/img

四、乱弹琴

水平有限,讲解的可能不是很清楚,欢迎交流。