php Swoole多线程爬虫三「这是我参与2022首次更文挑战的第17天，活动详情查看：2022首次更文挑战」课程

「这是我参与2022首次更文挑战的第17天，活动详情查看：2022首次更文挑战」

课程背景

上一节中我们拿到了网页的内容，我们继续进行数据的提取。

一般对于我们php来说，提取网页中内容都是用正则表达式。正则匹配一下需要的数据，匹配到以后直接拿出来就行，简单粗暴。我就没用这种方式，因为不喜欢写正则，也是因为水平太差。

XPATH。这是Python中数据爬取框架 Scrapy中用的，好像也是Python数据爬取常用的方法。我就是用这个在页面中用提取的数据。

我们着重来讲解一下这个神器

基本的教程去菜鸟瞅瞅 Xpath教程类似于Jquery的选择器，我们的HTML也是一个DOM树结构，也可以使用Xpath的选择器对结构中的节点进行选择。

1 安装谷歌插件

2 打开目标网站并开启开发者模式跟 xpath插件

3 查找dom中图片的位置

4 xpath语法定位元素

//div[@class='news-list-box']

// 代表匹配当前页面下所有的元素 / 是代表根目录(这里我们未使用到)

篇幅有限，下一节继续