「时光不负,创作不停,本文正在参加2022年中总结征文大赛」
摘要
可视化图表可以帮助我们了解数据的趋势和关系,是我们洞察数据的最为有效的手段,但是需要注意:即便图表中包含的数据全部都是真实的,不同的展示形式仍然会释放出不同的信息,甚至扭曲人们对数据的理解。本文介绍几种常见的数据可视化中的陷阱,大家日常在看到可视化图标时,注意辨别,你所看到的图表,是否扭曲了原有的数据
起点非0
Y轴起点为0,能显示真实的数据,起点非0,能放大差距。二者在不同的场景有不同的应用。
并非所有起点都应该从0开始时,下面是平均温度和年份的数据关系,如果起点从0开始,气温的变化显得微乎其微,而事实上,温度每变化1度,都会产生巨大影响。
因此当需要把细微的变化呈现出来的时候,就需要考虑到把细微的差距放大出来,这时起点坐标不一定要从0开始。
这个技巧经常被滥用,因此当我们再看其他人呈现的图标时,需要警惕,图上所展示的差距,是否被放大过。
Y轴间距非线性
Y轴间距越大,数据的差异越小,Y轴间距越小,数据差异越大,例如,Y轴间距100的时候,数值3和10的差异就很小,Y周间距是10的时候,数值3和10差异就很大,下面右图使用的Y轴是对数类型,看上去100和10000的高度只差了两倍,事实上相差了100倍。
使用三维图表
很多软件都能制作三维图表,但是三维图表在大多场合并不十分适用,尤其是在强调数据对比分析的应用场景中,三维图表在给读者带来酷炫视觉效果的同时,往往会扭曲数据本身的真实性,从而影响受众对结果的判断。原因是:当一个东西变成立体的时候,远的地方视觉上会小一点,近处则会大一些
上图中,Apple的份额(19.5%)看起来比上方的其它品牌的份额(21.2%)还要大,因此当你看到的图形是三维图形时,一定要保持警惕
堆叠图表
“堆叠”的意义就是在同一坐标轴上,将数据进行堆叠放置。除了底层的数据,其它数据的起始点并非是0,而是在上一层数据的基础上。左图是堆叠面积图,看上去两类数据都是越来越大的,
然而转化为折线图之后,我们可以清晰地看到实际上绿色的线是在不断下降的,但是幅度并不是很明显
事实上堆叠图的用途更接近于比较相对性(百分比堆叠柱状图就是一个好例子),类似饼图等,同时它有类似线图的走势特性所以适合用来比较各种资料间时序上的比例大小
参考资料
zhuanlan.zhihu.com/p/63892465
baijiahao.baidu.com/s?id=164565…