大数据可视化理论|青训营笔记

245 阅读5分钟

这是我参与「第四届青训营」笔记创作活动的第31天

本次笔记重点内容

  1. 定义
  2. 数据可视化基本流程
  3. 数据
  4. 可视化设计
  5. 交互
  6. 动画

定义

通过视觉(图像,图表,动画等)、触觉或者味觉进行信息呈现和交流的方式都可以称之为可视化,任何可以将数据转换为可视化表示的东西(如图表、图形、地图,有时甚至只是表格)就是数据可视化。

流程

image.png

不是所有数据都能直接进行呈现,那么这些数据首先要对它们进行抽象——非结构化数据变成结构化数据、整理分类、可视化设计(每个数据适合什么展现形式——颜色、大小、布局等),最后通过图形渲染呈现在计算机屏幕上。

数据(Data)

能被存储和处理的信息,都可以被视为数据。我们日常接触到的文本、视频、图像、账单等都是数据。不同种类的数据会分门别类成一个集合,称之为数据集(DataSet)。数据集分为结构化和非结构化(比如文字、图像),数据可视化只能对结构化数据进行呈现;非结构化数据经过处理之后,可以转换为结构化数据,进一步进行可视化展现,例如文本,我们可以通过自然语言处理、机器学习、文本挖掘等多种手段将其转化为结构化数据。 image.png

数据和数据集(Data and Dataset)

一个数据集可以由一种或者多种数据类型组成:

image.png

表格(Tables)

表格是使用行、列和单元格的概念来存储数据的结构,每一行是一条数据,每一列都有一个统一的属性定义。

image.png

多维表格(Multidimensional Table)

与二维表格的区别就是二维可以通过索引区分每一行数据,但是多维里面要通过多个索引来锁定一个数据。

image.png

网络和树(Networks or Trees)

网络和树图,核心概念就是“关系”,必须要显示的定义数据条目之间的关联关系才能绘制出。每一个 node 就是一个 data item,node中的属性就是 attributes。 Edges 中定义的就是节点的关系,对应于 Links 。

image.png

场(Fields)

用于描述磁场、电场、风场等数据,存储结构是网格(grid),每个网格中一般是向量、标量或者张量。

几何数据(Geometry (Spatial))集

几何数据集是几何图形数据的几何,通常用来描述地理信息。用相对的坐标定义每一个几何图形,然后坐标值连在一起就形成了一个图形。

image.png

属性分类(Attribute Types)

数据集中的数据条目都会包含一个或者多个属性(Attribute),属性分为分类(Categorical)和排序(Ordered)属性,排序属性又分为顺序(Ordinal)和定量(Quantitative)两种类别。

image.png

可视化设计(Visual Design)

可视化是一个帮助人们对 外部信息进行认知的过程,也就是说,是一个使用大脑以外的视 觉资源与信号,来帮助增强大脑认知能力的过程。人类将符号传递到大脑,随后对符号进行解码,根据大脑中的知识来得到符号具体表达的意义。

可视化编码

Mark

  1. Items / Nodes

  1. Links

根据数据维度的不同,我们可以选取点、线、面来进行表达数据。对于关系数据,则需要使用 Links 来展现。

通道(Channels)

选取了Mark之后,需要进一步描述Mark的具体视觉特性,这些特性称之为视觉通道(Visual Channels)。

编码(Encode)

从数据到视觉通道的转换过程,被称之为视觉编码(Visual Encoding)。

编码有效性(Effectiveness)

由于人类感知系统的特点,在不同场景下需要设计不同的编码策略,来提升感知速度和准确性。

格式塔理论

  • 邻近原则(proximity):空间中距离相近的元素有被看作一体的趋势
  • 相似原则(similarity):刺激物的形状、大小、颜色、强度等物理属性方面比较相似时,这些刺激物就容易被组织起来而构成一个整体
  • 连通性原则(Element Connectedness):如果一些元素与其他元素相连时,我们认为这些元素是统一体
  • 连续性原则(Good continuation):如果一个图形的某些部分可以被看作是连接在一起的,那么这些部分就相对容易被我们视为一个整体
  • 封闭的原则(closure):有些图形是一个没有闭合的残缺的图形,但主体有一种使其闭合的倾向
  • 共同命运原则(common fate):如果一个对象中的一部分都向共同的方向去运动,那这些共同移动的部分就易被感知为一个整体

交互

计算机诞生之前,可视化都是静态作品,人们只能通过看来理解数据。随着计算机图形的发展,交互成为一个重要研究方向,可视化和图形交互的融合,产生了探索式数据分析。

  • Change 改变

  • Juxtapose 并列

  • Filter 过滤

  • Select 选择

  • Partition 拆分

  • Aggregate 聚合

  • Navigate 导航

  • Superimpose 叠加

  • Embed 镶嵌

动画

  • 体现数据变化过程
  • 引导观众的注意力
  • 增强美观度