安装方法:
1.首先要在 Chrome 浏览器上
2.在应用商店搜索并下载 web scraper,安装成功后重启浏览器
3.打开 开发者工具 开始使用
如何使用:
👍👍👍 数据采集 web scraper爬取数据--安装+简单使用视频
当然,还是推荐你先看上面的这篇文章,相信会对你有所帮助。
下面是对我的 简书 文章进行的爬虫。
⚠️注意:有些地方的可能解释不到位,不懂的地方还是多百度咯~~
结构:
下面的步骤分解就是安装这个整体结构进行的,最后你会发现有 title,date,number3个分支,这里只用到了title,其它的可以忽略。
主要是为了方便大家理解~
步骤:
1.创建根目录文件,相当于给你这个爬虫程序命名
- 你会发现我的
Start URL是简书的域名,那是因为我将从这个页面开始爬虫
2.开始定义爬虫的执行过程
- 点击
Add new selector开始创建 - 因为我要先模拟进入
写文章的页面,所以Type切换成Link类型,然后从Select依次执行 - 最后保存,然后点击该行数据,进入该目录下,继续下一步操作
3.此时你要手动点击进入到
写文章 的页面,这个时候就不需要搞什么URL了,直接创建新的
- 这里用到的是
Element click属性,大概意思就是:个人理解,反正我也不是很明白,还望大家自行百度
蓝色部分属于一个父类,为其子类提供选项,因为我下一步将要在它框选的一部分内,进行
标题的选择; 黄色部分属于定义的点击模块,程序会在执行过程中进行点击操作,不要忘了☑️Multiple选项
- 保存,点击进入该条目录下,进行上面提到的
标题选择操作
4.我这边只取了
title 文章的标题,进行爬虫
- 如果你想要爬更多的数据,你可以在
muLu-click目录下创建更多的选项
5.程序这样已经算完成了,接下来就开始执行
此时程序会自动打开一个窗口进行你的爬虫操作,然后会自动关闭
你可能会发现导出的数据是乱的,这是正常现象,你只需要对导出的数据进行排序就可以了~