[ 数据可视化基础 | 青训营笔记 ]

121 阅读3分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 9 天

什么是数据可视化?

将相对晦涩的的数据通过可视的、交互的方式进行展示,从而形象、直观地表达数据蕴含的信息和规律。不仅仅是统计图表,本质上,任何能够借助于图形的方式展示事物原理、规律、逻辑的方法都叫数据可视化。

数据可视化分类

  • 科学可视化,科学实验数据的直接展示;
  • 信息可视化,对抽象数据的直接展示;
  • 可视分析,对分析结果的直观展现,及交互式反馈,是一个跨领域的方向。

为什么要数据可视化?

  • 记录信息
  • 分析推理
  • 证实假设
  • 交流思想

安斯库姆四重奏

image.png

下面两张图分别对上面的二维表格数据进行可视化 image.png image.png

显然,第二张图对数据的可视化更加直接

可视化设计原则和方法

糟糕的可视化呈现

image.png

错误的可视化呈现

image.png

可视化设计原则

能够正确表达数据中的信息而不产生偏差和歧义

  • 准确的展示数据;
  • 节省笔墨
  • 节省空间
  • 消除不必要的“无价值”图形
  • 在短时间内传达最多的信息

最大化数据墨水占比

数据墨水、非数据墨水、冗余数据墨水

数据墨水,即可视化图形中不可擦除的核心部分;而数据墨水占比即,可视化图形中用于展示核心数据的“墨水”与整体绘制可视化所使用的全部墨水之间的比例 image.png 非数据墨水,顾名思义,是可视化图表中的非核心部分,例如图表刻度、单位、坐标轴的刻画。

冗余数据墨水,顾名思义,是多出、重复的那部分墨水,例如1个核心数据指标重复出现2次,但因为它是核心数据指标,所以并不是非数据墨水,而是这里的冗余数据墨水。

image.png 在这张图中

  • 绝大多数都是数据墨水
    • 用于绘制散点和对应标签
  • 10% - 20% 是非数据墨水
    • 用于绘制坐标轴和刻度线
    • 并非所有的非数据墨水都没有作用,比如坐标轴的信息有利于我们看懂数据图。

常见的错误可视化

1. 透视失真

  • 如果数字是由数据元素表示的,那么它们应该与视觉元素的感知程度成正比;比如,下面的图片中,绿色部分所占比例其实比紫色部分小,但是利用3D图形的“近大远小”特性,让观众产生视觉误差,形成透视失真。
  • 使用清晰、详细和彻底的标签,以免图形失真和含糊不清;

image.png

2. 图形设计 & 数据尺度

图形设计过程中,我们对图形的每一部分都会产生相应的视觉预期。

  • 这些预期往往决定了眼睛看到的东西;
  • 错误的数据洞察,产生于图形的某个地方发生的不正确视觉预期推断; 首先,下面这张图片里面的表盘没有错; 一开始,表盘一大格表示的是20; 后面,速度增大,表盘一大格表示的是40。

image.png

3. 数据上下文

数据可视化时,一定要记得将数据上下文补全。

左图只是右图的一部分。 image.png