天猫订单之数据分析与挖掘——认识数据
0. 写在前面
- Windows:
Windows10 - Python:
Python3.9
本次案例项目主要是采用Pandas和Numpy对天猫订单数据集进行处理、挖掘、分类和聚类分析,最终利用数据可视化工具Matplotlib展示各地区在天猫平台的消费情况。
1. 案例(数据集)总体介绍
1.1 案例介绍
本次案例项目使用的数据集为和鲸社区中天猫订单成交的真实数据,旨在通过对数据集的认识、分析、挖掘,呈现天猫订单数据集的特征及表现形式,反映各地区在天猫销售平台的消费情况。
1.2 数据集大小
本次案例项目使用的数据集大小为28010条数据。
2. 总体分析
2.1 框架图
天猫订单数据挖掘及分析的总体框架图如下所示:
2.2 认识数据
2.2.1 数据集类型
我们知道数据类型可以分为记录、图形与网络、命令、空间、图像和多媒体等多种类型,很明显本次案例项目使用的天猫订单数据集为文本文档数据,属于记录类型的数据。
2.2.2 数据对象及数据属性
- 数据对象 数据集由数据对象组成。一个数据对象代表着一个实体。本次使用的天猫订单数据集是由订单(数据对象)组成。
- 数据属性 订单(每条数据)作为数据对象是由订单编号、商品总金额、买家实际支付金额、收货地址、订单创建时间、订单付款时间、退款金额共7个数据属性来描述的。
- 属性类型 属性类型大致可以分为标称、二元、序数、数字、离散、连续等多种属性类型。 在本次数据集的7个属性中,订单编号、商品总金额、买家实际支付金额、退款金额这4个属性属于数字属性类型;而收货地址属性作为一个地区名词,属于标称属性类型;订单创建时间、订单付款时间两个字段作为日期,应该也是属于连标称属性类型。
2.2.3 数据的基本统计描述
注意:此处的数据基本统计需要在数据集预处理过后进行
- 订单的收获地区数量
- 各地区订单成交的比例
-
各地区订单成交的总金额、实际付款金额、退款金额
-
总金额:
-
实际付款金额:
- 退款金额:
-
- 天猫订单退款比例
根据退款金额属性是否大于0.0作为订单被退款的标准。结果如下:
介绍和认识数据篇结束!!!