「这是我参与2022首次更文挑战的第10天,活动详情查看:2022首次更文挑战」
学习表示数据的对比关系和分布情况
学习目标:
- 了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异;
- 熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同;
- 熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景;
- 实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限;
0x01对比型数据可视化
对比型数据:对比两组或两组以上数据差异
1.柱状图
- 视觉通道:高度,宽度
- 条数最好不要超过12条
- 选择:
- 单一柱状图:单一类别数据对比;离散型时序数据趋势
- 重叠型柱状图:两个类别数据对比;嵌套模式,外部半透明代表某项指标目标值,内部较窄且不透明表示指标的实际完成情况。搭配折线表示目标完成率
- 并列柱状图:2~3个数据对比
- 堆叠柱状图:对比总体及对比各项构成。总体构成不超过5个,超过5个,除top5归类到其他
图示:

2.条形图
- 视觉通道:高度,宽度
- “水平柱状图”,条数较多时,从柱状图转化为条形图;
- 不要超过30条
图示:
3.面积图
- 视觉通道:面积
- 折线图及其投影到x轴的直线围成的面积
- 选择:
- 重叠对比型面积图:各分类都以x轴为基线,各类别间存在重叠和覆盖;分析各类别随时间变化趋势
- 堆砌对比型面积图:最底下分类以x轴为基线,其他类别依次向上叠;分析整体随时间变化趋势及各类别随时间变化趋势
- 也用于趋势分析
图示:

4.气泡图
- 视觉通道:面积
- 三维的散点图,将圆点的面积抽出来作为一个维度,各个数据圆点面积不一致
- 三维:点的x,y值,点的大小
- 多个系列对比,用颜色区分不同系列
图示:
5.单词云图
- 视觉通道:字号大小
- 词频数据可视化:关键词搜索,文章高频词,热点事件关键词
- 字体越大,频数越大
- 只适用于一个系列的数据对比
图示:
6.雷达图,星状图
- 视觉通道:形状
- 雷达图:一体多维,一个主体多种维度(一个圈)
- 星状图:多体多维,多个主体多种维度(多个圈)
- 不同维度,用分数衡量,获得主体的总分
图示:
0x02分布型数据可视化
分布型数据:研究数据分布的集中趋势,离散程度,偏态和峰度
1.直方图
- 数据通道:面积
- 选择:区别在于纵轴是频数还是频率
- 频数直方图:每条频数*组距=每组数量
- 频率直方图:每条频率*组距=每组概率
- 离散型数据
- 每个长条之间没有空隙,区别于柱形图
- 绘制
- 数据分组,统计每组数据的频数和频率
- 横轴标出每组数据的上下限
图示:
2.茎叶图
- 数据为整数
- 绘制:
- 分组
- 每组数据的高位为树茎,低位为树叶;比如对于组(11,13,14),树茎为1,树叶为134
图示:
3.箱线图
- 分位数(下四分位数Q1+中位数+上四分位数Q3)+最大值+最小值
- 分位数在箱体内,最值在箱体外
- 箱体越窄,数据越集中
- 对比多组数据分布;检测异常值或离群点
图示:
4.概率密度图
- 描述连续随机变量分布规律
- 与标准正态分布比较,根据偏态可分为左偏和右偏;根据峰度可分为扁平和尖峰分布
图示:
5.散点图,气泡图
见上
6.热力图
- 密度函数可视化,表示地图中点的密度的热图。用于地图,网页分析,业务数据分析等
- 交通热力地图:路况拥挤程度;颜色越深越拥挤;查看人流量,便于路线规划
- 网页热力分析:按鼠标点击位置,鼠标移动轨迹,内容点击的热力图;看到网页各个区域访客兴趣焦点,便于营销推广,用户体验分析
- 业务数据分析:带有地理信息属性数据,离散时间属性数据
7.地图
- 带有地理信息属性数据的可视化
- 二维和三维
- 导航,天气预报,降水量
图示:
作业
场景1:比较三家电商公司在消费者心中的印象评分
分析:属于多体多维对比型数据可视化, 且只有3个主体,可选择并列柱状图或星状图
场景2:某公司50家店铺的月度收入、成本和综合评分
分析:属于多体多维分布数据可视化,三个维度之间不存在关联;
- 可用频数直方图分别表示3个维度(采用自动分组);
- 组合折线图可查看分布,其实是将散点图连起来,组合的话是将3个维度,每个维度一条折线一起表示在一张图里,其中月度综合评分为百分制,使用次级坐标轴
- 气泡图也可以表示,x轴是月度收入,y轴是月度成本,大小是月度总和评分,但在excel里操作不便
0xff 参考资料
- 如何优雅地选择数据图表:对比型和分布型数据图表
- 《鲜活的数据》第7章p185和第6章p162