数据可视化之对比型数据可视化

758 阅读5分钟

「这是我参与2022首次更文挑战的第10天,活动详情查看:2022首次更文挑战

学习表示数据的对比关系分布情况

学习目标:

  • 了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异;
  • 熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同;
  • 熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景;
  • 实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限;

0x01对比型数据可视化

对比型数据:对比两组或两组以上数据差异

1.柱状图

  • 视觉通道:高度,宽度
  • 条数最好不要超过12条
  • 选择:
    • 单一柱状图:单一类别数据对比;离散型时序数据趋势
    • 重叠型柱状图:两个类别数据对比;嵌套模式,外部半透明代表某项指标目标值,内部较窄且不透明表示指标的实际完成情况。搭配折线表示目标完成率
    • 并列柱状图:2~3个数据对比
    • 堆叠柱状图:对比总体及对比各项构成。总体构成不超过5个,超过5个,除top5归类到其他

图示:

2.条形图

  • 视觉通道:高度,宽度
  • “水平柱状图”,条数较多时,从柱状图转化为条形图;
  • 不要超过30条

图示:屏幕快照 2019-12-03 下午10.15.15.png

3.面积图

  • 视觉通道:面积
  • 折线图及其投影到x轴的直线围成的面积
  • 选择:
    • 重叠对比型面积图:各分类都以x轴为基线,各类别间存在重叠和覆盖;分析各类别随时间变化趋势
    • 堆砌对比型面积图:最底下分类以x轴为基线,其他类别依次向上叠;分析整体随时间变化趋势及各类别随时间变化趋势
  • 也用于趋势分析

图示:屏幕快照 2019-12-03 下午10.19.02.png

4.气泡图

  • 视觉通道:面积
  • 三维的散点图,将圆点的面积抽出来作为一个维度,各个数据圆点面积不一致
  • 三维:点的x,y值,点的大小
  • 多个系列对比,用颜色区分不同系列

图示:

5.单词云图

  • 视觉通道:字号大小
  • 词频数据可视化:关键词搜索,文章高频词,热点事件关键词
  • 字体越大,频数越大
  • 只适用于一个系列的数据对比

图示:

6.雷达图,星状图

  • 视觉通道:形状
  • 雷达图:一体多维,一个主体多种维度(一个圈)
  • 星状图:多体多维,多个主体多种维度(多个圈)
  • 不同维度,用分数衡量,获得主体的总分

图示:

0x02分布型数据可视化

分布型数据:研究数据分布的集中趋势,离散程度,偏态和峰度

1.直方图

  • 数据通道:面积
  • 选择:区别在于纵轴是频数还是频率
    • 频数直方图:每条频数*组距=每组数量
    • 频率直方图:每条频率*组距=每组概率
  • 离散型数据
  • 每个长条之间没有空隙,区别于柱形图
  • 绘制
    • 数据分组,统计每组数据的频数和频率
    • 横轴标出每组数据的上下限

图示:屏幕快照 2019-12-03 下午10.21.30.png

2.茎叶图

  • 数据为整数
  • 绘制:
    • 分组
    • 每组数据的高位为树茎,低位为树叶;比如对于组(11,13,14),树茎为1,树叶为134

图示:

3.箱线图

  • 分位数(下四分位数Q1+中位数+上四分位数Q3)+最大值+最小值
  • 分位数在箱体内,最值在箱体外
  • 箱体越窄,数据越集中
  • 对比多组数据分布;检测异常值或离群点

图示:

4.概率密度图

  • 描述连续随机变量分布规律
  • 与标准正态分布比较,根据偏态可分为左偏和右偏;根据峰度可分为扁平和尖峰分布

图示:

5.散点图,气泡图

见上

6.热力图

  • 密度函数可视化,表示地图中点的密度的热图。用于地图,网页分析,业务数据分析等
    • 交通热力地图:路况拥挤程度;颜色越深越拥挤;查看人流量,便于路线规划
    • 网页热力分析:按鼠标点击位置,鼠标移动轨迹,内容点击的热力图;看到网页各个区域访客兴趣焦点,便于营销推广,用户体验分析
    • 业务数据分析:带有地理信息属性数据,离散时间属性数据

7.地图

  • 带有地理信息属性数据的可视化
  • 二维和三维
  • 导航,天气预报,降水量

图示:

作业

数据集

场景1:比较三家电商公司在消费者心中的印象评分

分析:属于多体多维对比型数据可视化, 且只有3个主体,可选择并列柱状图或星状图

屏幕快照 2019-12-03 下午9.45.32.png

屏幕快照 2019-12-03 下午9.46.14.png

场景2:某公司50家店铺的月度收入、成本和综合评分

分析:属于多体多维分布数据可视化,三个维度之间不存在关联;

  • 可用频数直方图分别表示3个维度(采用自动分组);
  • 组合折线图可查看分布,其实是将散点图连起来,组合的话是将3个维度,每个维度一条折线一起表示在一张图里,其中月度综合评分为百分制,使用次级坐标轴
  • 气泡图也可以表示,x轴是月度收入,y轴是月度成本,大小是月度总和评分,但在excel里操作不便

屏幕快照 2019-12-03 下午10.03.28.png

屏幕快照 2019-12-03 下午10.04.36.png

0xff 参考资料