一文速览-数据分析基础以及常规流程

144 阅读1分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

  • 数据分析

    • 现状分析
    • 原因分析
    • 预测分析
  • 指标

    • 总体概览指标 反映某一数据指标的整体大小
    • 对比性指标

      • 同比 相邻时间段内某一共同时间点上指标的对比
      • 环比 相邻时间段内的指标直接作差
    • 集中趋势指标

      • 平均数/加权平均数
      • 众数
      • 中位数
    • 离散程度指标

      • 全距(极差) 最大界减最小界
      • 四分位数
      • 方差
      • 标准差
    • 相关性指标

      • r

图片.png 对于上图补充几个需要详细说明的地方:

1.全距问题

问题1:容易受异常值的影响。

可以用四分位数来解决,四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间四分位数为中位数。

问题2:全距只表示了数据的宽度,没有描述清楚上下界之间的分布形态 可以用方差和标准差。

2.相关性指标r

反映两者之间互相关系,常用与分析影响因素之间相关性。

图片.png 想要理解的更透彻的可以去看PCA

图片.png 关于r需要注意以下几点:

相关系数r的范围为[-1,1]

r的绝对值越大,表示相关性越强

r的正负代表相关性的方向,正代表正相关,负代表负相关。

图片.png

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢

以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见