天猫订单之数据分析与挖掘——认识数据

258 阅读2分钟

天猫订单之数据分析与挖掘——认识数据



0. 写在前面

  • Windows:Windows10
  • Python:Python3.9

本次案例项目主要是采用Pandas和Numpy对天猫订单数据集进行处理、挖掘、分类和聚类分析,最终利用数据可视化工具Matplotlib展示各地区在天猫平台的消费情况。

1. 案例(数据集)总体介绍

1.1 案例介绍

本次案例项目使用的数据集为和鲸社区中天猫订单成交的真实数据,旨在通过对数据集的认识、分析、挖掘,呈现天猫订单数据集的特征及表现形式,反映各地区在天猫销售平台的消费情况。

1.2 数据集大小

本次案例项目使用的数据集大小为28010条数据。

2. 总体分析

2.1 框架图

天猫订单数据挖掘及分析的总体框架图如下所示:

01.png

2.2 认识数据

2.2.1 数据集类型

我们知道数据类型可以分为记录、图形与网络、命令、空间、图像和多媒体等多种类型,很明显本次案例项目使用的天猫订单数据集为文本文档数据,属于记录类型的数据。

2.2.2 数据对象及数据属性

  • 数据对象 数据集由数据对象组成。一个数据对象代表着一个实体。本次使用的天猫订单数据集是由订单(数据对象)组成。
  • 数据属性 订单(每条数据)作为数据对象是由订单编号、商品总金额、买家实际支付金额、收货地址、订单创建时间、订单付款时间、退款金额共7个数据属性来描述的。
  • 属性类型 属性类型大致可以分为标称、二元、序数、数字、离散、连续等多种属性类型。 在本次数据集的7个属性中,订单编号、商品总金额、买家实际支付金额、退款金额这4个属性属于数字属性类型;而收货地址属性作为一个地区名词,属于标称属性类型;订单创建时间、订单付款时间两个字段作为日期,应该也是属于连标称属性类型。

2.2.3 数据的基本统计描述

注意:此处的数据基本统计需要在数据集预处理过后进行

  • 订单的收获地区数量

02.png

  • 各地区订单成交的比例

03.png

  • 各地区订单成交的总金额、实际付款金额、退款金额

    • 总金额:

    04.png

    • 实际付款金额:

    05.png

    • 退款金额:

06.png

  • 天猫订单退款比例

根据退款金额属性是否大于0.0作为订单被退款的标准。结果如下:

07.png

介绍和认识数据篇结束!!!