探索性分析理论梳理

246 阅读3分钟

探索性分析的目的是帮助数据分析师和决策者更好地理解数据,发现数据中的模式、趋势和关系,以及潜在的问题和异常。它通常在数据收集和分析的早期阶段进行,为后续更深入的数据分析和预测分析奠定基础。

探索性分析(EDA)的核心方法包括以下几种:

  1. 数据可视化

**

  • 散点图:用于展示两个变量之间的关系,帮助识别潜在的线性或非线性关系。
  • 条形图:用于比较不同类别或组别数据的可视化工具。通过长条的长度或高度来表示数值的大小,适合用于展示离散数据。
  • 直方图:展示单个变量的分布,帮助理解数据的频率和分布形态。
  • 箱线图:用于识别数据的中位数、四分位数及异常值,适合比较不同组别之间的分布。
  • 热力图:用于展示变量之间的相关性,帮助识别潜在的关联性。
  • 时间序列图:用于展示随时间变化的变量数据,帮助识别趋势、周期性和异常值。

**

  1. 描述性统计

    • 计算数据的基本统计量,如均值、中位数、众数、标准差、偏度、峰度、最小值、最大值和四分位数,提供数据的整体概览。
  2. 数据分布分析

    • 检查数据是否遵循特定分布(如正态分布),以决定后续分析方法。
  3. 缺失值分析

    • 识别和分析数据中的缺失值,探索缺失值的模式或原因,评估其对分析结果的影响,并决定合适的处理方式。
  4. 异常值检测

    • 识别数据中的极端值或离群点,分析异常值产生的原因,评估其对分析的影响,并决定如何处理这些值。
  5. 相关性分析

    • 使用相关系数(如皮尔逊相关系数)来评估变量之间的线性关系,帮助识别潜在的因果关系。
  6. 数据透视表(sql很多时候也在干这个)

    • 通过交叉分析不同变量,获取多维度的信息,有助于发现数据中的潜在模式和关系。
  7. 分组分析

    • 根据某一或多个特征将数据进行分组,比较不同组别的特征和表现,识别组间差异。
  8. 时间序列分析:

  • 趋势分析:识别数据的长期上升或下降趋势。
  • 季节性分析:识别数据在特定时间段内(如季节、月份、星期等)的重复模式。
  • 周期性分析:与季节性不同,周期性指的是数据中出现的长期波动模式,这种波动可能不是固定的时间间隔,例如,经济周期的波动影响企业销售数据。
  • 异常值检测:识别时间序列数据中不符合一般趋势的突发事件,如异常高的销售额或意外的销量下降,帮助企业及时应对突发情况。
  • **时间序列特性评估:**了解数据的平稳性、自相关性、偏自相关性等特性