「这是我参与2022首次更文挑战的第9天,活动详情查看:2022首次更文挑战」
时序数据和比例数据的可视化
学习目标:
了解时序数据的特点,熟练掌握不同类型的时序数据分别适合的图表类型;
了解比例型数据可视化的目的,学会根据数据集的特征去选择合适的图表;
实践:从给定的4个数据集中挑选两个,自行选择合适图表并进行可视化呈现;
0x01 时序数据可视化
时序数据:指随时间而变化的数据。如某sku的日销量。
具有以下特征:
- 有序性:时间有先后
- 周期性:周期循环性
- 结构性:时间尺度可切割,根据年,季度,月等单位
根据时间是否连续可分类为:离散型时间和连续型时间。
1.离散时间的可视化
离散体现在:
- 具体的时间点或时间段
- 有限取值。
可视化图表:
(1)柱状图
使用高度作为数值的映射。
(1a)单一柱状图
-
横轴为离散的时间点,根据时间先后进行排序;
-
纵轴为维度,是具体的度量值,柱形的高度映射数值的高度;
-
只适用于单维度的离散时间趋势表示,且离散时间点不超过12条;
如某电商平台2019年上半年GMV趋势
(1b)并列柱状图
多个属性系列在某一离散时间点上关于某个维度的趋势变化以及对比。
属性系列条数最好不要超过3条。
如:某影院2019年上半年国产&外国片票房趋势
(1c)堆叠柱状图
离散时间点下,总体的构成部分在某个度量维度上随时间的趋势变化。
根据堆叠部分是实际体量还是相对体量,可分类为:
-
普通堆叠柱状图:堆叠的是实际体量
-
构成部分最好不超过5条,超过的话做适当分类保证图表突出。
-
-
百分比堆叠柱状图:堆叠的是相对体量
-
要注意的是,纵轴是百分比,最大值为100%,每条柱形都等高,都是100%
-
(2)散点图
变量随离散时间的变化趋势。
用位置作为数值的视觉通道。
多个系列属性时,利用不同的数据标记,比如正方形,圆形来区分各个系列。但略显杂乱。
2.连续时间的可视化
连续体现在:
- 连续的时间间隔
- 可视化图形是连续的。
可视化图表:
(1)折线图
- x轴:连续的时间间隔,已排序,间隔相同
- y轴:数值维度
根据数据项的个数,可分类:
点线图:数据项不超过12个,可在对应点上直接标注数值;突出点
折线图:数据项大于12个
曲线图:更平滑的连线
(2)阶梯图
相邻时间点,后一个时间点数据相对于前一个时间点数据的升降变化。
比如:股票价格波动,商品价格波动等
(3)拟合曲线图
根据数据的变化趋势,拟合出一个连续函数关系。
用于预测。
0x02 比例型数据可视化
比例数据:根据类别,子类别,群体进行划分。可视化目的在于寻找整体中最大值,最小值,整体的构成分布和各部分相对关系。
可视化图表:
1.饼图
数据映射的视觉通道是角度。
分类项一般最多在5~7项。
可这样处理:
-
数据项n≤6,直接显示各扇区原始类别名称。
-
数据项n>6,直接显示排名top5扇区的原始类别名称,剩余数据项归类到“其他”。

2.环形图
数据映射的视觉通道是弧形的长度。因为圆心被挖掉了,变成环了。
环形的中心部分是空的,可以放置:标签,整体数值,平均值,图表主题或其他内容。
其他同饼图。
3.百分比堆叠柱状图
数据映射的视觉通道是高度和颜色。
-
多个类别,每个类别含有相同个数的子类别。
-
各个类别的柱形条高度相同,y轴刻度是百分数,且每个柱形条都是100%。
-
各个系列的子类数目少,可在柱形内部直接显示占比;子类目多则隐藏。
-
子类目多时,要对子类目进行归类
4.百分比堆叠面积图
数据映射的视觉通道是面积。
查看子类目在相同时间范围内随时间变化的趋势。
-
不同区域面积代表子类目的占比。
-
垂直切片,可查看具体时间段的占比。

5.矩形树图
数据映射的视觉通道是面积。
面积大小代表占比大小,同时矩形间的包含关系可表示树形数据间关系。
比如knn中利用kd树来实现查找最邻近的n个点。
辅助的交互手段:单击对应区块进行下钻;悬停展示具体数值和比例,使用面包屑进行层级的跳转。
0x03 实践
1.时序数据数据集
**场景1:**某电商公司2018年销售额趋势
问题:展示2018年全年的销售额整体趋势情况,以及不同品类销售额的发展趋势,应该用什么图表展示?
分析:
(1)全年整体趋势,及显示总销售额随月份的变化趋势,使用折线图。
(2)不同品类销售额的发展趋势,每个月份都有5个相同的品类,选择普通堆叠柱状图,显示体量。同一条柱状图可看到当月不同品类的占比,不同月份可比较总量,不同品类的增长趋势。
**场景2:**某只股票在2019年10月份的价格变动
题目2:展示某只股票的价格变动,应该使用什么图表?
分析:使用阶梯图,可查看到增减的情况。
2.比例数据数据集
场景1:某快递公司每天寄件单的揽收时效分布
问题:展示某日,该快递公司的寄件单的揽收时效分布及其占比情况,应该使用什么图表?
因为揽收情况存在树状结构,比如当日揽收还包括:2小时内揽收,2-6小时内揽收等,因此考虑选择矩形树图,环形图也可以。
场景2:主流快递公司承运量流向分布
问题:既要对比同一公司内部,不同流向的包裹的承运量占比;又想对比不同快递公司之间,同一流向的包裹承运量的占比差异,应该用什么图表?
使用百分比堆叠柱状图,每一条表示一种快递公司。