爬虫管理平台搭建

2,318 阅读2分钟

爬虫管理平台搭建

这是我参与8月更文挑战的第16天,活动详情查看:8月更文挑战

学习目标:

  1. 各爬虫管理平台了解

    • scrapydweb
    • gerapy
    • crawlab
  2. 各爬虫管理平台的本地搭建

爬虫管理平台了解:

  1. scrapydweb:

     用于Scrapyd实施管理的web应用程序,支持Scrapy日志分析和可视化
     ​
     github地址:https://github.com/my8100/scrapydweb.git
    
  2. gerapy:

     基于Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django和Vue.js的分布式爬虫管理框架
     ​
     相关的配置在我之前博客地址:https://www.cnblogs.com/xbhog/p/13336651.html
     ​
     该项目github地址:https://github.com/Gerapy/Gerapy.git
    
  3. crawlab:

     基于Golang的分布式爬虫管理平台,支持多种编程语言以及多种爬虫框架.
     ​
     文档地址:https://docs.crawlab.cn/zh/
     ​
     GitHub地址:https://github.com/crawlab-team/crawlab.git
    

注意:前两个框架的搭建基于Scrapyd,如果不知道怎么配置可以看我之前写的博客:www.cnblogs.com/xbhog/p/133…

爬虫管理平台的本地搭建:

  1. scrapydweb搭建:

    • 安装:pip install scrapydweb -i pypi.doubanio.com/simple

    • 先打开scrapyd(命令行输入)

    • 再输入scrapydweb

    • 界面效果:

    • 部署安装网上教程很多,不多赘述

  2. gerapy

  3. crawlab:(配置安装官方给的很详细,这里简单说下)

    • 首先把代码从远程仓库clone下来:git clone 地址/复制地址到pycharm中

    •  #官方推荐几种安装方式:
       Docker(入门简单,推荐)
       Kubernetes(多机器部署,推荐)
       直接部署(理解原理)
       开发模式(开发调试)
       多节点部署
       #个人选择docker,该项目配置环境过多,怕给本地造成冲突
      
    • docker的安装:

    • 默认安装即可

    • 相关详细链接(菜鸟教程:www.runoob.com/docker/wind…

    • 安装docker-compose包:pip install docker-compose

    • 在根目录下测试:

       docker-compose ps
       正常为空
       Name   Command   State   Ports
       ------------------------------
       --------------------------------
      
    • 安装并启动:docker-compose up -d

    • http://127.0.0.1:8080/#/login进入即可

结束:

如果你看到这里或者正好对你有所帮助,希望能点个关注或者推荐,感谢;

有错误的地方,欢迎在评论指出,作者看到会进行修改。