scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃

916 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第27天,点击查看活动详情

本篇博客和上一篇内容呈连续性,注意哦~

scrapydweb模块安装

上篇博客中提及到了一款美化scrapyd的模块,名字叫做scrapydweb今天我们就把它配置起来吧

本篇博客内容相对简单,篇幅较少,大家可以快速阅览

scrapydweb 的 github地址如下:github.com/my8100/file…

安装命令也比较简单

pip install scrapydweb -i pypi.douban.com/simple

运行scrapydweb,运行前注意你的scrapyd必须处在运行状态

运行效果如图,运行完毕,会在当前目录生成一个scrapydweb_settings_v10.py文件

Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫

1. 配置scrapyd服务器节点

然后打开文件, 注释一些内容。具体如下

SCRAPYD_SERVERS = [
    '127.0.0.1:6800',
    # 'username:password@localhost:6801#group',
    # ('username', 'password', 'localhost', '6801', 'group'),
]

这里,只保留第一项即可

  • 127.0.0.1:6800, 直接指定URL:PORT
  • username:password@localhost:6801 # group, group是一个组名, 可以把scrapyd自动划分成组
  • ('username', 'password', 'localhost', '6801', 'group)

当然,如果是远程的服务器的话,建议开启认证

scrapydweb_settings_v10.py

# The default is False, set it to True to enable basic auth for the web UI.
ENABLE_AUTH = False
# In order to enable basic auth, both USERNAME and PASSWORD should be non-empty strings.
USERNAME = ''
PASSWORD = ''

修改完,在重新启动scrapydweb即可,看到下面图中竟然还出现了一个错误~ Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃 在这是访问http://127.0.0.1:5000也是没有任何问题的,可以正常打开,就是还是有一行错误提示。 Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃 其实这里也是比较容易理解的,它需要的进行一个logparser的展示,通过下述命令

logparser -dir E:\crawl100\demo82\logs
注意 E:\crawl100\demo82\logs 更换成你自己电脑上的路径 Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃

后续通过http://127.0.0.1:6800/logs/stats.json 可以查看到日志详情。

2. 部署与运行爬虫

继续修改配置文件

打开配置文件 scrapydweb_settings_v10.py 修改下述属性 SCRAPY_PROJECTS_DIR=爬虫项目的上一级目录, 也就是scrapy.cfg文件所在的上一级目录

重启scrapydweb然后点击左侧的Deploy Project,项目会自动识别出来。 Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃 之后点击左侧的Run Spider Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃 然后选择要运行的服务器、项目、版本、爬虫名称,点击Check CMD按钮生成命令,在点击Run Spider就可以手动运行爬虫了。

注意:timer task是添加一个定时任务.

3. 查看爬虫运行情况以及日志

点击左侧的Jobs按钮, 就可以看到所有运行过的任务, 点击蓝色的Stats即可查看爬虫运行产生的日志信息,点击绿色的Start的按钮,可以再次运行爬虫。

Python爬虫入门教程 83-100 scrapyd配合scrapydweb跑scrapy爬虫,名称有点套娃

4. 其他补充内容

除了上面的功能以外,还有更多的配置可以自行研究,例如

  1. 创建定时任务爬虫,通过time task
  2. 配置爬取结果邮件通知
  3. 开启scrapydweb安全认证
  4. 开启https

3和4条可以直接在scrapydweb_settings_v10.py 文件中进行基本设置。