数据分析 - 自动化运营(二)

218 阅读2分钟

这是我参与8月更文挑战的第20天,活动详情查看:8月更文挑战

昨天梳理了一下自动化运营的整体流程,先解决第一个问题: 如何python实现自动化登录几个平台并爬取到相关数据。

  1. 首先基本主流平台都有对应的开放平台,对接相关API,可以从中获取到自己想要的信息。

  2. 那么我想实现自动化登录并爬取到相关数据的目的是什么呢?

    • 获取到对应平台的数据信息
    • 对相关数据进行分类,分析出关注度较高,且较易操作的话题/内容板块
      好,那么现在要做的是先看一下这几个平台提供的API各有哪些,有没有可以直接满足自己需求的。
      首先获取到的数据肯定不需要是所有内容,最好是相关话题或者分类,以及当前的热度/关注人数/发布人数等。
      通过查看几个平台的API,发现好像没有这种。那么如何进行统计呢?总不能硬遍历吧。转换一下思路,直接统计每个平台关注人数最多的前100名,对这100名进行分析汇总,看每个类别所占比重是多大,各自有什么特点,差不多也能分析出比较有价值的内容是哪些了。
  3. 哔哩哔哩有实时的排行榜,这个排行榜是根据稿件质量、近期的数据综合展示。但展示的是当前热度最高的稿件,不是Up主,不过也有一定的参考性。
    可以先根据这里的数据分类汇总出哪些内容的热度较高,每篇内容对应的Up主有哪些,各自的粉丝量占多少。后面统计出当前粉丝量最多的前100名Up主后,对比看一下有多少Up主的视频在排行榜中,能够得出当前质量较高的Up主有哪些。

  4. 抖音、哔哩哔哩、小红书等都可以根据用户id获取到对应用户的粉丝数等信息,但用户数量这么多,一个个的获取比较不太靠谱吧,那么这些平台是如何汇总并分析出对应的影响力排行榜的?大部分都没有看到实现原理,只看到了结果,先放一下。

  5. 微博同样有V影响力榜,可以从这里获取到当前影响力最大的用户是哪些。获取影响力TOP的原因是为了分析更有价值的类别,这里盲猜微博的影响力榜明星占大多数。