数据可视化 | 青训营笔记

82 阅读3分钟

这是我参与「第四届青训营 」笔记创作活动的的第4天

1. 为什么要进行数据可视化

从百度上查到数据可视化的相关定义:

数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。

  • 数据可视化给用户带来的是更加直观的数据展示效果,方便用户理解上下文,同时数据可视化记录着信息、帮助分析推理、证实假设、方便交流思想。基于此,数据可视化在开发中也具有重要的意义。

2.数据可视化的分类

  • 科学可视化
  • 信息可视化
  • 可视分析

3. 安斯库姆四重奏

描述在分析数据之前,绘制数据所对应的可视图形有多么重要 image.png

从表到图数据分析更加直观,数据分析也更加直接。

4. 可视化设计原则和具体方法

4.1 不合适的可视化呈现

  • 呈现的色彩过于复杂
  • 呈现的数据过多
  • 表达数据中的信息不正确产生偏差与歧义

4.2 可视化设计的常见错误

4.2.1 透视失真

  • 产生场景:3D的可视化中最常见
  • 避免方法:
    • 如果视觉元素表示数字,那么他们应该与视觉元素的感知程度成正比。
    • 对于图形的标签应当清晰、详细和彻底,避免图形失真和含糊不清。

4.2.2 图形设计&数据尺度

  • 对于视觉预期要尽量符合一般认知,避免错误的数据洞察导致不正确的视觉预期判断。

4.2.3 数据上下文

  • 可视化的图应该紧密联系上下文,避免图不对文的数据可视化。

4.3 数据可视化的原则

  1. 准确地展示数据
  2. 节省笔墨
  3. 节省空间
  4. 消除不必要的“无价值”图形
  5. 在最短的事件内传达最多的信息
  • 最大化数据墨水占比(Data-Ink Ratio)
    • 可视化图形由墨水(内容)和空白区域构成
    • 数据墨水:可视化图形当中不可擦除的核心部分被称之为“数据墨水”
    • 数据墨水占比:可视化图形中用于展示核心数据的“墨水”在整体可视化所使用的的墨水中的比例
    • DataInkratio=DataInkTotalInkUsedToPrintTheGarphicsData-Ink ratio = \frac{Data-Ink}{Total Ink Used To Print The Garphics}

image.png

一张可视化图中绝大部分是数据墨水,20%~30%的非数据墨水

5. 视觉

  • 人类视觉系统观察的是变化,而不是绝对值,并且容易被边界吸引
  • 在可视化设计中,设计真需要充分考虑到人类感知系统的这些现象,以使得设计的可视化结果不会存在阻碍或误导用户的可视化元素。

6. 格式塔理论

这里附 格式塔心理学的百度百科解释

  • 格式塔学派的理论核心是整体决定部分的性质,部分依从于整体。结构比元素重要,视觉形象首先作为统一的整体被认知。感知的事物大于眼睛见到的事物。

格式塔理论的原则

  1. 就近原则
  2. 相似原则
  3. 连续性原则
  4. 闭合原则
  5. 共势原则
  6. 对称性原则
  7. 图形与背景关系原则

7. 视觉编码原则

视觉编码是一种将数据信息(属性+值) 映射成为 可视化元素(可视化符号+视觉通道) 的技术

8. 可视化的工具(面向前端)

  1. D3.js
  2. Vega
  3. AntV
  4. ECharts