爬虫软件<web scraper>

218 阅读2分钟

image.png

🔥 web scraper 官方地址

安装方法:

1.首先要在 Chrome 浏览器上

2.在应用商店搜索并下载 web scraper,安装成功后重启浏览器 image.png 3.打开 开发者工具 开始使用

image.png

如何使用:

👍👍👍 数据采集 web scraper爬取数据--安装+简单使用视频

👍 知乎:零基础用爬虫爬取网页内容(详细步骤+原理)

当然,还是推荐你先看上面的这篇文章,相信会对你有所帮助。 下面是对我的 简书 文章进行的爬虫

⚠️注意:有些地方的可能解释不到位,不懂的地方还是多百度咯~~

结构:

下面的步骤分解就是安装这个整体结构进行的,最后你会发现有 title,date,number3个分支,这里只用到了title,其它的可以忽略。

主要是为了方便大家理解~

image.png

步骤:

1.创建根目录文件,相当于给你这个爬虫程序命名

  • 你会发现我的 Start URL 是简书的域名,那是因为我将从这个页面开始爬虫

image.png

image.png 2.开始定义爬虫的执行过程

  • 点击 Add new selector 开始创建
  • 因为我要先模拟进入 写文章 的页面,所以Type切换成 Link类型,然后从 Select 依次执行
  • 最后保存,然后点击该行数据,进入该目录下,继续下一步操作

image.png

image.png

image.png 3.此时你要手动点击进入到 写文章 的页面,这个时候就不需要搞什么URL了,直接创建新的

  • 这里用到的是 Element click 属性,大概意思就是: 个人理解,反正我也不是很明白,还望大家自行百度

蓝色部分属于一个父类,为其子类提供选项,因为我下一步将要在它框选的一部分内,进行 标题 的选择; 黄色部分属于定义的点击模块,程序会在执行过程中进行点击操作,不要忘了☑️ Multiple选项

  • 保存,点击进入该条目录下,进行上面提到的 标题 选择操作

image.png

image.png

image.png 4.我这边只取了 title 文章的标题,进行爬虫

  • 如果你想要爬更多的数据,你可以在 muLu-click目录下创建更多的选项 image.png

image.png 5.程序这样已经算完成了,接下来就开始执行

image.png

image.png 此时程序会自动打开一个窗口进行你的爬虫操作,然后会自动关闭

image.png

image.png

image.png

image.png 你可能会发现导出的数据是乱的,这是正常现象,你只需要对导出的数据进行排序就可以了~

image.png