echarts展示数据

128 阅读3分钟

一、数据选题

  1. 经济社会方面:
    • GDP、就业率、通货膨胀率、收入分布、人口统计数据等,研究经济趋势、社会公平问题
  2. 健康方面:
    • 医疗保健成本、疫情数据、健康状况、医疗服务水平等,研究健康趋势、卫生政策
  3. 环境方面:
    • 气候数据、大气污染、水质、土壤质量、自然灾害等,研究气候变化和环境可持续性
  4. 教育方面:
    • 学校绩效、教育支出、学生成绩、教育流动性等,研究教育政策
  5. 科学研究方面:
    • 科学实验、文献引用、资金、学术成就等,研究科学发展和研究领域的动态变化
  6. 社交媒体方面:
    • 社交媒体帖子、互动、情感分析等,研究社交趋势、民意
  7. 金融方面:
    • 股票市场、货币市场、商品市场等,研究金融市场的波动和趋势
  8. IT:
    • 应用使用情况、用户行为数据、在线购物数据等,研究数字消费情况


本人已晕.

二、抓取数据:

  1. 使用语言:Python
  2. IDE:vscode
  3. 相关框架、工具:Scrapy+Gerapy+Scrapyd
  4. 安装相关依赖:(首先要保证Python和pip都已安装)
    • pip install scrapy,gerapy,scrapyd
      • scrapy:
        • 一个用于抓取和提取web站点的结构化数据的应用框架
        • 可用于数据挖掘、监控和自动化测试
      • gerapy:
        • 一个支持Python3的分布式爬虫管理框架
      • scrapyd:
        • 一个用于部署和管理Scrapy项目的开源工具
  5. 创建scrapy项目:(在存储项目的文件夹下打开终端)
    • 命令:scrapy startproject project_name image.png
    • 创建爬虫文件:
      • 方式1:
        • 在项目文件夹的spiders文件夹下,创建.py文件
      • 方式2:
        • 在项目任一目录下执行:scrapy genspider spider_name 爬取网站的起始URL
  6. 配置scrapyd服务器相关信息:(按照个人需求)
    • 找到scrapyd配置文件所在目录,通常是Python安装目录下的Lib\site-packages\scrapyd下(win10系统python3),编辑default_scrapyd.conf文件 image.png
  7. 启动scrapyd服务器:
    • 在任意目录下输入scrapyd命令 image.png
  8. 配置gerapy:
    • 存储gerapy项目的文件夹下打开终端->初始化一个gerapy项目
      • 命令:gerapy init或者gerapy init project_name(前者项目名默认为gerapy)
    • 配置gerapy项目的各种配置项(gerapy中使用数据库来管理)
      • 初始化一个数据库:gerapy migrate
    • 创建一个用户用于登录gerapy服务器(gerapy有默认的登录机制)
      • 方式1:gerapy initadmin
      • 方式2:gerapy createsuperuser
  9. gerapy项目的根目录下启动gerapy服务器:
    • 命令:gerapy runserver port
      • 有error->可能端口号被别的应用程序占用->选择换一个端口号
      • 也可将gerapy服务绑定在公网上,供公众访问(上面的方式只能本地计算机访问)
        • gerapy renserver --host ip
    • 服务器成功启动命令行界面会显示如下: image.png
  10. 使用Gerapy来管理爬虫(实现可视化管理,并且简化了爬虫的管理和监控流程)
    • 打开Gerapy控制台(我的控制台地址是:http://127.0.1:8099) image.png
    • 登录成功后出现下述界面(我的主机已创建,但是一开始进去是没有任何主机的!) image.png
    • 创建主机:(主机即scrapyd服务器的实例)
      • 优点:
        • 更好地管理、分配爬虫任务,使得Gerapy变得更灵活、更有扩展性
    • 创建项目:
      • 有几种创建方式,不过在gerapy项目目录下的projects文件夹里直接添加scrapy项目更方便!
    • 打包、部署、运行项目

参考资源:


注:

  • 我的项目一直无法打包,不知道是哪个配置没弄好,,好像身份认证失败,希望明天可以解决!解决了就要想办法处理数据格式了,然后做好echarts跟python的对接,奥里给,各位祝我能解决吧 = =