携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第27天,点击查看活动详情
本篇博客和上一篇内容呈连续性,注意哦~
scrapydweb模块安装
上篇博客中提及到了一款美化scrapyd的模块,名字叫做scrapydweb今天我们就把它配置起来吧
本篇博客内容相对简单,篇幅较少,大家可以快速阅览
scrapydweb 的 github地址如下:github.com/my8100/file…
安装命令也比较简单
pip install scrapydweb -i pypi.douban.com/simple
运行scrapydweb,运行前注意你的scrapyd必须处在运行状态
运行效果如图,运行完毕,会在当前目录生成一个scrapydweb_settings_v10.py文件
1. 配置scrapyd服务器节点
然后打开文件, 注释一些内容。具体如下
SCRAPYD_SERVERS = [
'127.0.0.1:6800',
# 'username:password@localhost:6801#group',
# ('username', 'password', 'localhost', '6801', 'group'),
]
这里,只保留第一项即可
- 127.0.0.1:6800, 直接指定URL:PORT
- username:password@localhost:6801 # group, group是一个组名, 可以把scrapyd自动划分成组
- ('username', 'password', 'localhost', '6801', 'group)
当然,如果是远程的服务器的话,建议开启认证
scrapydweb_settings_v10.py
# The default is False, set it to True to enable basic auth for the web UI.
ENABLE_AUTH = False
# In order to enable basic auth, both USERNAME and PASSWORD should be non-empty strings.
USERNAME = ''
PASSWORD = ''
修改完,在重新启动scrapydweb即可,看到下面图中竟然还出现了一个错误~
在这是访问
http://127.0.0.1:5000也是没有任何问题的,可以正常打开,就是还是有一行错误提示。
其实这里也是比较容易理解的,它需要的进行一个
logparser的展示,通过下述命令
logparser -dir E:\crawl100\demo82\logs
注意 E:\crawl100\demo82\logs 更换成你自己电脑上的路径
后续通过http://127.0.0.1:6800/logs/stats.json 可以查看到日志详情。
2. 部署与运行爬虫
继续修改配置文件
打开配置文件 scrapydweb_settings_v10.py
修改下述属性 SCRAPY_PROJECTS_DIR=爬虫项目的上一级目录, 也就是scrapy.cfg文件所在的上一级目录
重启scrapydweb然后点击左侧的Deploy Project,项目会自动识别出来。
之后点击左侧的
Run Spider
然后选择要运行的服务器、项目、版本、爬虫名称,点击
Check CMD按钮生成命令,在点击Run Spider就可以手动运行爬虫了。
注意:timer task是添加一个定时任务.
3. 查看爬虫运行情况以及日志
点击左侧的Jobs按钮, 就可以看到所有运行过的任务, 点击蓝色的Stats即可查看爬虫运行产生的日志信息,点击绿色的Start的按钮,可以再次运行爬虫。
4. 其他补充内容
除了上面的功能以外,还有更多的配置可以自行研究,例如
- 创建定时任务爬虫,通过time task
- 配置爬取结果邮件通知
- 开启
scrapydweb安全认证 - 开启
https
3和4条可以直接在scrapydweb_settings_v10.py 文件中进行基本设置。