大数据可视化理论与案例分析 | 青训营笔记

231 阅读3分钟

大数据可视化理论与案例分析 | 青训营笔记

这是我参与「第四届青训营 」笔记创作活动的的第19天,本篇笔记主要是关于第十九次大数据课程《大数据可视化理论与案例分析》的课堂笔记


定义

什么是可视化

可视化是用来创建图像、图表或动画以传递消息的任何技术。

什么是数据可视化

将数据转换为可视化表示的任何东西(如图表、图表、地图,甚至表格)

数据可视化作用(The role of data visualization)

  1. 直观展示
  2. 数据探索
  3. 促进沟通与交流

原理

流程

image.png

第一步 : 数据处理( Abstract Data 只有满足特定结构的数据才能做对应的可视化展现,而且为了达到好的可视化效果也需要对数据进行清洗、转换等操作。

第二步 : 可视化设计与表达( Visualization Design) 根据数据特征选择合适的展现模式,在此基础上通过合理的使用视觉编码,来定义最终的可视化展现内容。

第三步:可视化渲染( Rendering and Display)

将定义好的图形转换成为图像,展现给观众。

第四步:可视化交互( Interactivity)

单一的可视化结果并不能满足用户的多方面诉求,用户往往借助交互方式,进一步了解细节或者对数据进行筛选、聚合、分面等,对数据进行多方面的探索。

数据

定义: 能被存储和处理的信息,都可以被视为数据。我们日常接触到的文本、视频、图像、账单等等都是数据。每一个种类的数据都是一个大的集合,由多条小的数据条目组成,称之为数据集(DataSet)。

数据与数据集分类(Data and Dataset)

数据可以被分为以下五种类别:

  • Items:具体的每一条数据
  • Attributes:条目的每个字段的属性
  • Links:数据之间的关系
  • Positions:位置
  • Grids:网格 数据集被分为以下五种类别:
  • Tables:表格数据
  • Networks & Trees:层次结构数据
  • Fields:场数据
  • Geometry:几何数据
  • 其他集合类型:Clusters,Sets,Lists

表格(Tables)

多维表格(Multidimensional Table)

image.png

网络和树(Networks or Trees)

image.png

场(Fields)

场数据,用于描述磁场、电场、风场等数据,存储结构是网格(grid),每个网格中一般是向量、标量或者张量。

几何数据(Geometry (Spatial))集

几何数据集是几何图形数据的几何,通常用来描述地理信息。

如地图,由多个几何图形拼装而成,在定义地图的数据中会定义具体的几何图形类型及位置信息。

编码

1. Items / Nodes

2. Links

根据数据维度的不同,我们可以选取点、线、面来进行表达数据。对于关系数据,则需要使用 Links 来展现。

4.2.2 通道(Channels)

选取了Mark之后,需要进一步描述Mark的具体视觉特性,这些特性称之为视觉通道(Visual Channels)

A visual channel is a way to control the appearance of marks

视觉通道有很多,下图以6种通道和3种Mark相组合,可以很直观的体会二者之间的关系。

(John Krygier and Denis 《Making Maps: A Visual Guide to Map Design for GIS》)

4.2.3 编码(Encode)

从数据到视觉通道的转换过程,被称之为视觉编码(Visual Encoding)。

不同的数据属性需要用不同的通道来进行编码才能达到更好的效果,上图将通道分成两组,分别对应分类数据和可排序数据。下面我以一个简单柱形图为例,进行拆解: