启动入口EasyApplication

找到EasyApplication类，运行main函数启动
浏览器打开localhost:8080
初始页面如下

默认会创建两个爬虫示例，我们以爬虫“豆瓣top250“来讲解

启动示例 “豆瓣top250“

点击运行按钮，会跳转到爬取结果页面

上半部分是监控爬虫的性能，每5秒爬取的条数，默认的配置是单线程的，并且需要爬取正文页的内容，所以爬取的速度不会快，可以在首页设置运行参数来调整爬虫的线程数等配置。注意豆瓣是有防爬虫策略的，不易爬取的太快，否则会被封ip
下半部分是爬取的字段数据

那么这个爬虫是怎么配置的呢？请看下面的配置讲解

示例讲解 “豆瓣top250“ 是如何配置的

第一步

点击按钮修改，打开修改界面如下

参数讲解（带红色*号的为必填项）：

1.蜘蛛名：

该参数只是为爬虫起个名字

2.表名：

对应数据库的表名，为爬虫记录创建一个对应的表的名字

3.入口页：

该示例对应的参数是"movie.douban.com/top250?star…"，该地址对应的是爬虫需要爬取的第一个页面，是一个列表页面，底部会有分页栏，打开地址如下图：

4.列表页正则：

该示例对应的参数是"https://movie.douban.com/top250?start=\d+&filter=", 这个正则表示什么意思呢？查看下图：

浏览器检查元素，打开分页栏对应的html代码，可以看到页码对应的地址为："?start=25&filter=", 其对应的正则为"?start=\d+&filter=", 再带上域名前缀完整的正则即是："https://movie.douban.com/top250?start=\d+&filter="

5.正文页XPATH：

此项可以不填，该参数的目的是爬取正文页的内容，什么是正文页，就是点开列表页上的某一项后打开的正文页面，如下图

这里示例填的正文页xpath为："//*[@class='article']//div[@class='hd']/a/@href"，对应的是列表页每条标题链接对应的xpath，如下图（XPATH不知道怎么写的请百度学习xpath）

五个参数（如果不用爬取正文页内容则不用填正文页XPATH参数）填写完毕后，点击下一步

第二步

列表页字段

列表页字段的意思是列表页对应你要爬取的字段, 比如标题

示例中默认添加了2个列表页字段

以title为例，对应列表页这里的标题，其xpath规则为："//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()"
rate表示评分，填入对应的xpath规则

正文页字段

正文页字段如果第一步没有填写正文页XPATH, 也就是你不需要爬取正文页的数据，那么第二步的正文页字段可以不用填

示例的正文页如下图：

比如示例中"taptap"字段是爬取正文页的标题，填入字段名" taptap"，对应的xpath规则为："//*[@id='content']/h1/span[1]/text()"

配置完毕点击完成

最后点击完成按钮完成爬虫的配置

自己创建一个爬虫

点击新建弹出创建爬虫的配置窗口，具体如何配置请参考上面的“豆瓣top250”示例教程

和别人共享爬虫配置

点击导出配置按钮

点击复制按钮

将你复制的内容发送给你的朋友

将你复制的内容发送给你的朋友，让其点击导入配置按钮导入

导入配置

点击导入配置按钮

将朋友发送给你的配置填入，然后点击导入按钮完成爬虫的快捷创建

优化爬虫性能

点击 “设置运行参数” 按钮，打开性能配置窗口

窗口如下图：

线程数

表示爬虫线程池的线程数量，默认为1，即单个线程

页面处理完后的睡眠时间（秒）

一个url页面爬取后，睡眠的时间，默认为5秒，调小一点可以加快速度，调大了可以加快速度

页面下载失败重试次数

一个url页面下载失败了，重试几次，默认为0次

重试睡眠时间（秒）

一个url页面下载失败了，每次重试下载睡眠的时间间隔，默认1秒

页面爬取失败后放回队列的次数

页面爬取失败了，设置放回待爬取url队列的次数，超过该次数该url会被丢弃

下载页面超时时间

下载一个url页面超时的时间，默认为5秒

easycrawl使用教程