大数据可视化理论与案例分析 | 青训营笔记

119 阅读4分钟

这是我参与「第四届青训营 」笔记创作活动的第14天

1. 定义

1.1 什么是可视化?

Visualization is any technique for creating images, disagrams, or animations to communicate a message.

“可视化”应该包含一切用“图”来传递和沟通信息的技巧和方法,包括图标、图像、动画等。

以视觉来呈现的技术就可以称之为“可视化”

1.2 什么是数据可视化?

Anything that converts data into a visual representation (like charts, graphys, maps, somethings even just tables)

将数据转换为可视表示的任何东西(如图表、图形、地图、某些东西,甚至只是表格)

目的:让人们更好的理解数据

1.3 数据可视化作用

  • a picture is worth a thousand works(信息展示)

可视化可以更好的展示信息

  • explore the truth of the data(数据探索)

帮助更好的分析数据,探索数据中关键因素等问题

  • promote communication and exchange(沟通媒介)

南丁格尔-玫瑰图,数据大屏

2. 原理

数据可视化的流程:

  • 抽象数据

不是所有数据都可以直接进行可视化的,对于非结构化的数据要先进行结构化梳理;对数据的分类和表达进一步抽象

  • 设计展示
  • 渲染和展示
  • 交互反馈

image.png

2.1 数据

2.1.1 定义

Data is defined as a collection of meaning facts which can be stored and processed by computers or humans.

数据被定义为可以被计算机或人类存储和处理的有意义的事实的集合。

各种各样的数据,分门别类地进行抽象抽取变成Dataset(结构化数据/非结构化数据),结构化数据可以直接进行数据可视化,而非结构化数据需要进行数据挖掘变成结构化数据进行可视化。

image.png

2.1.2 数据与数据集

  • 表格数据
  • 网格数据/树形数据
  • 场数据(应用于科学研究的表达)
  • 几何图形数据
  • 其他数据类型

image.png

2.1.3 表格

表格数据可以用行列进行组织,每一行是一个数据条目(item),每一列标注数据属性(attributes)

行列交叉的地方是一个数据称为(cell)

image.png

2.1.4 多维表格

多维表格区别于二维表格:

  • 二维表格可以通过唯一索引区分数据
  • 多维表格需要通过多个字段定位

image.png

2.1.5 网络图和树图

都是关系型数据,有描述节点信息,有描述节点直接关系的信息

image.png

2.1.6 场

主要用在科学可视化中,类似于风场数据、气象数据。

image.png

2.1.7 几何数据

image.png

2.1.8 属性数据

  • 分类的数据类型
  • 可排序的数据类型
    • 常规的排序数据
    • 定量数据

image.png

2.2 编码

如何决定是通过树状图还是条状图等?

从人类认知分析 :

  • 原始感觉信号:颜色、形状等
  • 模式识别
  • 推理与分析

图元:

  • 元素/节点(点、线条、区域)

通过点线面可以直接表达语义的

image.png

  • 连接

关系型的数据,可以通过桑基图等

image.png

通道:

确定了图元之后,需要进一步确定颜色,大小,形状等维度来表达语义。

image.png

编码:

  • 分类数据可以通过不同颜色、或者大小来区分

image.png

编码的有效性:

不同的数据特性需要选择不同的视觉编码。

image.png

长度的表达在大部分场景表现比较好。

  • 邻近原则

分组柱状体,通过位置的远近进行区分

  • 相似原则

在表达分类数据,通过不同的形状来表达不同数据

  • 连通性原则

人脑对于趋势的认同

  • 连续性原则
  • 封闭的原则
  • 共同命运原则

image.png

2.3 交互

2.3.1 分类

  • 变更
  • 过滤
  • 选择
  • 分组
  • 聚合
  • 嵌入

image.png

3 案例

  • 过多的分类会使得饼图的视觉效果趋于混乱
  • 同样的数据,如果使用柱形图来显示,分类之间的对比就会明显很多

使用饼图,一般推荐5个分类条目

image.png

非0基线造成的数据扭曲

image.png

使用累积数据而不是年份数据,给观众造成逐年销量攀升的假象

另外没有明显的比例尺,看不出数据之间的实际差异。

image.png

4 学习

4.1 综合

如何学习数据可视化:

  • 设计(Web/UI&UX/Visual Design)
  • 数学与算法
  • 编程
  • 技术(机器学习/数据挖掘)