携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第22天,点击查看活动详情
梦想橡皮擦:是不是以为我会继续写glidedsky网站后面的打擂?很遗憾,猜错了,今天我们放松一下,学个不用写代码的爬虫程序。
写在前面
Web Scraper
是谷歌浏览器的一个插件,它最大的好处就是让一些不懂Python或者其他编程语言的人可以通过一些简单的鼠标+键盘的操作就能获取到想要的数据,而且能爬取的网站非常多,毕竟它是实实在在安装到一个真实的浏览器上的扩展插件。
获取插件的方式非常简单,通过谷歌插件市场就可以获取到,但是谷歌插件市场你懂得,需要科学和谐的上网方法,这对很多人来说难度又不小,那么在这里推荐几个网址,让你可以快速的去下载并安装。
例如,你可以下面这些网址去下载 Web Scraper
扩展
这里提及到的官网,里面还有详细的说明教程
Web Scraper是一款免费的Chrome&Chromium(如360浏览器、QQ浏览器等)扩展,通过建立sitemap遍历网站抓取相应的数据。无需写代码,即可抓取95%以上的网站。 能够访问Google的可通过应用商店安装最新版本;也可通过以在我的网盘 (谷歌插件-WebScraper)下载离线版本。 除免费插件外,该公司还提供了付费云端版本:谷歌插件——WebScraper。 此文档翻译至:www.webscraper.io/documentati…
Web Scraper安装
下载插件之后,是一个以crx结尾的文件,例如WebScraper.crx
,你可以直接打开谷歌浏览器的扩展程序Tab进行拖拽安装,如果安装失败,那需要做的就是修改crx文件
的后缀名为zip
,解压之后然后通过加载已解压的扩展程序
进行操作,具体的插件安装,稍微百度一下即可查阅清楚。
安装成功之后,浏览器右上角出现图标,按下键盘上的F12开发者工具中多出一个选项操作,这样基本配置就已经完毕了。
初步尝试使用Web Scraper
接下来,我们就可以不用编写一行代码,只需要动动鼠标,按按键盘就能完成爬虫爬取的一系列操作了,走起~ 今天我们要爬取的网站为edu.csdn.net/course?payT…,没错,CSDN的课程频道,筛选出7077门课程,我们看一下是否可以全部爬取下来。
在我的尝试中,发现功能蛮多的,例如翻页抓取,点击更多按钮抓取,滚动加载抓取等等,常见的页面呈现或者说分页方式基本都支持上了,今天咱们要实现的是最简单的,翻页抓取。
由于是工具的使用,涉及的截图会比较多,大家可以比对着进行试验练习
create new sitemap
创建sitemap
其实就是创建爬取的链接,我们先简单的创建一页,点击图示1的位置
写好
sitemap name
和start url
点击创建即可
add new selector
创建一个选择器,说白了就是你要爬取哪些数据,对于一个会用Python写爬虫的人来说,接下来的操作就及容易理解了,我们需要先框选出大的范围,然后在在里面找小元素,有点绕吧,看下面的图片,我们先抓取到绿框内容,在在每个绿框中抓取红框内容
下面图片会有详细的步骤说明
- 创建一个自定义的id
- 在Type下拉列表中选择
Element
,其它的选项表示一些文本,表格,链接等内容,后面会涉及到 - 点击
select
,之后移动鼠标到网页区域进行选择,注意红框的范围。 - 点击
Done selecting
完成选择,注意这个地方要点击至少两条最后一步注意勾选
Multiple
,然后保存即可。
Type各种种类 ,了解一下,熟练掌握必须要自己多次尝试
- Text(文本)选择器;
- Link(链接)选择器;
- Link popup(弹出链接)选择器;
- Image(图像)选择器;
- Table(表格)选择器;
- Element attribute(元素属性)选择器;
- HTML 选择器;
- Grouped(组块)选择器。
创建子选择器
给我们刚才创建的course
创建一个子选择器,点击所在行即可。
ID取名字叫做
title
,注意Multiple
不用勾选了,因为不存在多条数据

执行scrape抓取
简单配置完毕,执行抓取测试一下,设置一下请求时间和时间间隔,等着数据来到即可。
抓取结果刷新一下即可出现~
数据导出
点击如下图所示位置,即可对数据进行导出操作
翻页爬取
刚才我们只爬取了1页数据,接下来略微修改一下,把所有的课程标题都爬取下来(其他的内容不再抓取,雷同),修改一下爬取页面规则即可,点击Edit metadata
,修改到472页,接下来就是漫长的等待了。
最后数据全部抓取完毕,核对数据没有问题,而且好像还多多出了一门课程。
写在后面
对于很多爬虫编写者来说,有时如果老板或者甲方的需求就是获取到数据就行,那除了编码以外,我们应该掌握更多的解决问题的方法,通过免费的工具去爬取就是非常好的一种办法,毕竟简单、快速、高效的获取到目标数据就是最优的解决方案。