一、数据选题
- 经济社会方面:
- GDP、就业率、通货膨胀率、收入分布、人口统计数据等,研究经济趋势、社会公平问题
- 健康方面:
- 医疗保健成本、疫情数据、健康状况、医疗服务水平等,研究健康趋势、卫生政策
- 环境方面:
- 气候数据、大气污染、水质、土壤质量、自然灾害等,研究气候变化和环境可持续性
- 教育方面:
- 学校绩效、教育支出、学生成绩、教育流动性等,研究教育政策
- 科学研究方面:
- 科学实验、文献引用、资金、学术成就等,研究科学发展和研究领域的动态变化
- 社交媒体方面:
- 社交媒体帖子、互动、情感分析等,研究社交趋势、民意
- 金融方面:
- 股票市场、货币市场、商品市场等,研究金融市场的波动和趋势
- IT:
- 应用使用情况、用户行为数据、在线购物数据等,研究数字消费情况
本人已晕.
二、抓取数据:
- 使用语言:Python
- IDE:vscode
- 相关框架、工具:Scrapy+Gerapy+Scrapyd
- 安装相关依赖:(首先要保证Python和pip都已安装)
- pip install scrapy,gerapy,scrapyd
- scrapy:
- 一个用于抓取和提取web站点的结构化数据的应用框架
- 可用于数据挖掘、监控和自动化测试
- gerapy:
- 一个支持Python3的分布式爬虫管理框架
- scrapyd:
- 一个用于部署和管理Scrapy项目的开源工具
- scrapy:
- pip install scrapy,gerapy,scrapyd
- 创建scrapy项目:(在存储项目的文件夹下打开终端)
- 命令:scrapy startproject project_name
- 创建爬虫文件:
- 方式1:
- 在项目文件夹的spiders文件夹下,创建.py文件
- 方式2:
- 在项目任一目录下执行:scrapy genspider spider_name 爬取网站的起始URL
- 方式1:
- 命令:scrapy startproject project_name
- 配置scrapyd服务器相关信息:(按照个人需求)
- 找到scrapyd配置文件所在目录,通常是Python安装目录下的Lib\site-packages\scrapyd下(win10系统python3),编辑default_scrapyd.conf文件
- 找到scrapyd配置文件所在目录,通常是Python安装目录下的Lib\site-packages\scrapyd下(win10系统python3),编辑default_scrapyd.conf文件
- 启动scrapyd服务器:
- 在任意目录下输入scrapyd命令
- 在任意目录下输入scrapyd命令
- 配置gerapy:
- 在存储gerapy项目的文件夹下打开终端->初始化一个gerapy项目
- 命令:gerapy init或者gerapy init project_name(前者项目名默认为gerapy)
- 配置gerapy项目的各种配置项(gerapy中使用数据库来管理)
- 初始化一个数据库:gerapy migrate
- 创建一个用户用于登录gerapy服务器(gerapy有默认的登录机制)
- 方式1:gerapy initadmin
- 方式2:gerapy createsuperuser
- 在存储gerapy项目的文件夹下打开终端->初始化一个gerapy项目
- 在gerapy项目的根目录下启动gerapy服务器:
- 命令:gerapy runserver port
- 有error->可能端口号被别的应用程序占用->选择换一个端口号
- 也可将gerapy服务绑定在公网上,供公众访问(上面的方式只能本地计算机访问)
- gerapy renserver --host ip
- 服务器成功启动命令行界面会显示如下:
- 命令:gerapy runserver port
- 使用Gerapy来管理爬虫(实现可视化管理,并且简化了爬虫的管理和监控流程)
- 打开Gerapy控制台(我的控制台地址是:http://127.0.1:8099)
- 登录成功后出现下述界面(我的主机已创建,但是一开始进去是没有任何主机的!)
- 创建主机:(主机即scrapyd服务器的实例)
- 优点:
- 更好地管理、分配爬虫任务,使得Gerapy变得更灵活、更有扩展性
- 优点:
- 创建项目:
- 有几种创建方式,不过在gerapy项目目录下的projects文件夹里直接添加scrapy项目更方便!
- 打包、部署、运行项目
- 打开Gerapy控制台(我的控制台地址是:http://127.0.1:8099)
参考资源:
- Python与ECharts
- chatgpt
注:
- 我的项目一直无法打包,不知道是哪个配置没弄好,,好像身份认证失败,希望明天可以解决!解决了就要想办法处理数据格式了,然后做好echarts跟python的对接,奥里给,各位祝我能解决吧 = =