「这是我参与2022首次更文挑战的第17天,活动详情查看:2022首次更文挑战」
课程背景
- 我作为一个PHP工程师 虽然这几年PHP没落了
- 但我还是有责任补充一些PHP方面的高级教程
- 掘金粑粑开始更文奖励了 不能白白拿人家的奖励
应该发表一些高层次的PHP的技术文章别让PHP倒了
正文开始
上一节中我们拿到了网页的内容,我们继续进行数据的提取。
数据提取 方法一
一般对于我们php来说,提取网页中内容都是用正则表达式。正则匹配一下需要的数据,匹配到以后直接拿出来就行,简单粗暴。我就没用这种方式,因为不喜欢写正则,也是因为水平太差。
数据提取 方法二
XPATH。这是Python中数据爬取框架 Scrapy中用的,好像也是Python数据爬取常用的方法。我就是用这个在页面中用提取的数据。
我们着重来讲解一下这个神器
XPATH
基本的教程去菜鸟瞅瞅 Xpath教程 类似于Jquery的选择器,我们的HTML也是一个DOM树结构,也可以使用Xpath的选择器对结构中的节点进行选择。
1 安装谷歌插件
2 打开目标网站 并开启开发者模式 跟 xpath插件
3 查找dom中图片的位置
4 xpath语法定位元素
//div[@class='news-list-box']
// 代表匹配当前页面下所有的元素
/ 是代表根目录(这里我们未使用到)
篇幅有限,下一节继续