easycrawl使用教程

495 阅读4分钟

启动入口EasyApplication

  1. 找到EasyApplication类,运行main函数启动

  2. 浏览器打开localhost:8080

  3. 初始页面如下

默认会创建两个爬虫示例,我们以爬虫“豆瓣top250“来讲解

启动示例 “豆瓣top250“

点击运行按钮,会跳转到爬取结果页面

  • 上半部分是监控爬虫的性能,每5秒爬取的条数,默认的配置是单线程的,并且需要爬取正文页的内容,所以爬取的速度不会快,可以在首页设置运行参数来调整爬虫的线程数等配置。注意豆瓣是有防爬虫策略的,不易爬取的太快,否则会被封ip

  • 下半部分是爬取的字段数据

那么这个爬虫是怎么配置的呢?请看下面的配置讲解

示例讲解 “豆瓣top250“ 是如何配置的

第一步

点击按钮修改,打开修改界面如下

参数讲解(带红色*号的为必填项):

1.蜘蛛名:

该参数只是为爬虫起个名字

2.表名:

对应数据库的表名,为爬虫记录创建一个对应的表的名字

3.入口页:

该示例对应的参数是"movie.douban.com/top250?star…",该地址对应的是爬虫需要爬取的第一个页面,是一个列表页面,底部会有分页栏,打开地址如下图:

4.列表页正则:

该示例对应的参数是"https://movie.douban.com/top250?start=\d+&filter=", 这个正则表示什么意思呢?查看下图:

浏览器检查元素,打开分页栏对应的html代码,可以看到页码对应的地址为:"?start=25&filter=", 其对应的正则为"?start=\d+&filter=", 再带上域名前缀完整的正则即是:"https://movie.douban.com/top250?start=\d+&filter="

5.正文页XPATH:

此项可以不填,该参数的目的是爬取正文页的内容,什么是正文页,就是点开列表页上的某一项后打开的正文页面,如下图

这里示例填的正文页xpath为:"//*[@class='article']//div[@class='hd']/a/@href",对应的是列表页每条标题链接对应的xpath,如下图(XPATH不知道怎么写的请百度学习xpath)

五个参数(如果不用爬取正文页内容则不用填正文页XPATH参数)填写完毕后,点击下一步

第二步

列表页字段

列表页字段的意思是列表页对应你要爬取的字段, 比如标题

示例中默认添加了2个列表页字段

  1. 以title为例, 对应列表页这里的标题,其xpath规则为:"//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()"

  2. rate表示评分,填入对应的xpath规则

正文页字段

正文页字段如果第一步没有填写正文页XPATH, 也就是你不需要爬取正文页的数据,那么第二步的正文页字段可以不用填

示例的正文页如下图:

比如示例中"taptap"字段是爬取正文页的标题,填入字段名" taptap",对应的xpath规则为:"//*[@id='content']/h1/span[1]/text()"

配置完毕 点击完成

最后点击完成按钮完成爬虫的配置

自己创建一个爬虫

点击新建弹出创建爬虫的配置窗口,具体如何配置请参考上面的“豆瓣top250”示例教程

和别人共享爬虫配置

点击导出配置按钮

点击复制按钮

将你复制的内容发送给你的朋友

将你复制的内容发送给你的朋友, 让其点击导入配置按钮导入

导入配置

点击导入配置按钮

将朋友发送给你的配置填入,然后点击导入按钮完成爬虫的快捷创建

优化爬虫性能

点击 “设置运行参数” 按钮,打开性能配置窗口

窗口如下图:

线程数

表示爬虫线程池的线程数量,默认为1,即单个线程

页面处理完后的睡眠时间(秒)

一个url页面爬取后,睡眠的时间,默认为5秒,调小一点可以加快速度,调大了可以加快速度

页面下载失败重试次数

一个url页面下载失败了,重试几次,默认为0次

重试睡眠时间(秒)

一个url页面下载失败了,每次重试下载睡眠的时间间隔,默认1秒

页面爬取失败后放回队列的次数

页面爬取失败了,设置放回待爬取url队列的次数,超过该次数该url会被丢弃

下载页面超时时间

下载一个url页面超时的时间,默认为5秒