行业数据抓取 - 进口棉价格

115 阅读3分钟

一、背景

        期货研究员做研究时,需要大量的数据支撑。这些数据来源都是各个行业网站,有些网站会提供连续的数据,能够很方便的导出使用,但是有些网站提供的数据不是连续性的,是通过日报或者文章每天定时公布当天的数据,此时就需要研究员每天固定时间点去网站摘录,而这些网站数量较多或者需要摘抄的指标较多时,就需要花费大量的时间精力。

        这里我们采用“粒元数字员工”做了一个简单的自动化采集流程,每日定时采集数据,并且可以根据需要进行补充采集漏采的数据。

        下面是执行效果:

二、流程梳理

  1. 按照指定网站打开网站,这里以进口棉价格为例,进口保价数据地址:www.cncotton.com/#/list?name…
  2. 判断当日数据是否有更新,有更新则点击进入当日数据详情,没有则结束流程,等待下次抓取
  3. 根据所需指标采集原始数据,这里采集国际棉花价格指数(SM)、国际棉花价格指数(M)、美国C/A棉、美国C/A棉、美国E/MOT棉、澳棉、巴西棉、乌兹别克斯坦棉、西非棉、印度棉、美国E/MOT M 1-3/32″级棉这几个指标
  4. 处理采集下来的数据
  5. 写入Excel保存

三、流程编辑

        1、打开网站

        2、判断最最新文章日期

        3、网页原始数据抓取

        4、数据处理,把所需的指标从原始数据里面提取出来,并规范化输出

        5、数据写入Excel

四、补采流程

        采集任务每日定时运行,数据有可能因为延迟公布、网络异常、系统运行异常等原因没有采集到,所以我们需要一个补充采集的流程,根据设置定的时间段,自动采集时间段所有的数据并输出存储到Excel。

        1. 关键逻辑判断如下:

        2. 需要补采时,在运行参数中“是否补采”设置为“是”,并设定补采时间段即可运行补采逻辑

五、总结

        这种数据采集可以写python脚本抓取,但是如果网站出现变动或者增加指标时,需要调整修改脚本,而且还要部署环境,不便研究员操作。如果采用“粒元RPA”采集,通过拖拽操作即可完成采集配置,设置定时任务定期执行,即可满足需求。

        目前研究员朋友试用之后表示,他负责的3个品种,42个网站的数据抓取,他配置了其中的10个,这10个原来每天需要花将近1个小时的时间,现在只用鼠标点点,检查下抓取下来的数据,大约3分钟不到。他已经开始给他同事推广了,太省事了~

        此流程已上架有需要可领取试用,领取链接:www.cxplan.cn/sso/share-a…