描述
之前一直用代码写爬虫,最近发现有一款浏览器插件可以轻松的获取页面数据
而且支持翻页和子页面跳转,感觉挺不错的,该浏览器插件名称叫做web scraper,有兴趣的可以自行去谷歌应用商店下载
实操
- 我们打开浏览器的开发者工具
- 点击上方的web -Scraper
数据抓取
获取左侧数据列表的数据,以及文章详情里面的数据
创建一个项目
我们点击Creat Sitemap,
取一个站点名称和站点url
创建父节点
点击 Add new Selector 按照下图操作
选择元素的时候,需要点击两次,表示获取该两次选择css样式的所有元素,记得勾选Multiple
选择保存
在父节点中选取所需元素
点击刚刚创建好的selector
这里获取数据列表中的title,introduce,lookNum,likeNum,commitNum,以及articleLink
点击Add new Selector
把这几个字段按照上述实现
注:获取子页面数据的操作
获取子页面数据
点击SelectorLink所在行即进入该配置界面
获取发布时间和正文内容
预览
回到_root节点,点击Data preview
就可以看到我们获取到的数据
翻页
由于本次演示的页面是向下翻页的,所以需要在_root节点中Type配置成Element scroll down,即向下翻页
如果是有页码的界面,就要修改url参数,如下
括号中[页面开始-页面结束:步长]
run起来
点击Scrape
设置间隔时间
这个时候就会弹出浏览器界面,然后自执行
点击refresh
就可以看到我们抓取到的数据
点击导出数据
这里我选择csv