web scraper

403 阅读2分钟

描述

之前一直用代码写爬虫,最近发现有一款浏览器插件可以轻松的获取页面数据

而且支持翻页和子页面跳转,感觉挺不错的,该浏览器插件名称叫做web scraper,有兴趣的可以自行去谷歌应用商店下载

image.png

实操

image.png

  • 我们打开浏览器的开发者工具
  • 点击上方的web -Scraper

数据抓取

获取左侧数据列表的数据,以及文章详情里面的数据

创建一个项目

我们点击Creat Sitemap,

image.png

取一个站点名称和站点url image.png

创建父节点

点击 Add new Selector 按照下图操作

image.png

选择元素的时候,需要点击两次,表示获取该两次选择css样式的所有元素,记得勾选Multiple

image.png

选择保存

在父节点中选取所需元素

点击刚刚创建好的selector

image.png

这里获取数据列表中的title,introduce,lookNum,likeNum,commitNum,以及articleLink

点击Add new Selector

image.png

image.png

把这几个字段按照上述实现

image.png

注:获取子页面数据的操作 image.png

获取子页面数据

点击SelectorLink所在行即进入该配置界面

获取发布时间和正文内容

image.png

预览

回到_root节点,点击Data preview

image.png

就可以看到我们获取到的数据

image.png

翻页

由于本次演示的页面是向下翻页的,所以需要在_root节点中Type配置成Element scroll down,即向下翻页

image.png

如果是有页码的界面,就要修改url参数,如下

image.png

book.xxx.com/subject/306…]

括号中[页面开始-页面结束:步长]

run起来

点击Scrape image.png

设置间隔时间

image.png

这个时候就会弹出浏览器界面,然后自执行

点击refresh

image.png

就可以看到我们抓取到的数据

image.png

点击导出数据

image.png

这里我选择csv

image.png

查看数据

image.png