web scraper

2023-01-18 436 阅读2分钟

描述

之前一直用代码写爬虫,最近发现有一款浏览器插件可以轻松的获取页面数据

而且支持翻页和子页面跳转,感觉挺不错的,该浏览器插件名称叫做web scraper,有兴趣的可以自行去谷歌应用商店下载

实操

我们打开浏览器的开发者工具
点击上方的web -Scraper

数据抓取

获取左侧数据列表的数据,以及文章详情里面的数据

创建一个项目

我们点击Creat Sitemap,

取一个站点名称和站点url

创建父节点

点击 Add new Selector 按照下图操作

选择元素的时候,需要点击两次,表示获取该两次选择css样式的所有元素,记得勾选Multiple

选择保存

在父节点中选取所需元素

点击刚刚创建好的selector

这里获取数据列表中的title,introduce,lookNum,likeNum,commitNum,以及articleLink

点击Add new Selector

把这几个字段按照上述实现

注:获取子页面数据的操作

获取子页面数据

点击SelectorLink所在行即进入该配置界面

获取发布时间和正文内容

预览

回到_root节点,点击Data preview

就可以看到我们获取到的数据

翻页

由于本次演示的页面是向下翻页的,所以需要在_root节点中Type配置成Element scroll down,即向下翻页

如果是有页码的界面,就要修改url参数,如下

book.xxx.com/subject/306…]

括号中[页面开始-页面结束:步长]

run起来

点击Scrape

设置间隔时间

这个时候就会弹出浏览器界面,然后自执行

点击refresh

就可以看到我们抓取到的数据

点击导出数据

这里我选择csv

查看数据