这是我参与「第四届青训营 」笔记创作活动的第7天
1 大数据可视化的定义
1.1 什么是数据可视化
Visualization is any technique for creating images, diagrams, or animations to communicate a message.
根据上面的定义我们可以理解为通过视觉元素来进行信息交流的方式都可以称之为可视化,广义上也可以扩展到人的整个感知系统。
Anything that converts data into a visual representation (like charts, graphs, maps, sometimes even just tables)
“数据可视化”和“可视化”的定义很相似,只是增加了一个关键词——“数据”。
1.2 数据可视化的作用
数据可视化最直观的作用就是将数据要阐述的内容直观的展现出来,探索数据的规律。
2 大数据可视化原理及流程
一个可视化作品的诞生,可以抽象成下面四个大步骤

- 数据处理( Abstract Data ) 只有满足特定结构的数据才能做对应的可视化展现,而且为了达到好的可视化效果也需要对数据进行清洗、转换等操作。
- 可视化设计与表达( Visualization Design) 根据数据特征选择合适的展现模式,在此基础上通过合理的使用视觉编码,来定义最终的可视化展现内容。
- 可视化渲染( Rendering and Display) 将定义好的图形转换成为图像,展现给观众。
- 可视化交互( Interactivity) 单一的可视化结果并不能满足用户的多方面诉求,用户往往借助交互方式,进一步了解细节或者对数据进行筛选、聚合、分面等,对数据进行多方面的探索。
2.1 数据/Data
数据可以被分为以下五种类别:
- Items:具体的每一条数据
- Attributes:条目的每个字段的属性
- Links:数据之间的关系
- Positions:位置
- Grids:网格
数据集被分为以下五种类别:
- Tables:表格数据
- Networks & Trees:层次结构数据
- Fields:场数据
- Geometry:几何数据
- 其他集合类型:Clusters,Sets,Lists
一个数据集可以由一种或者多种数据类型组成,包含关系如下图:
属性可以分类,不同的类型的属性可视化的方式也不同
-
属性分类/Attribute Types
-
分类(Categorical)属性
-
排序(Ordered)属性
- 顺序(Ordinal)
- 定量(Quantitative)
-
2.2 编码/Encode
可视化是一个帮助人们对 外部信息进行认知的过程,也就是说,是一个使用大脑以外的视 觉资源与信号,来帮助增强大脑认知能力的过程。从符号学层面来讲,人类将符号传递到大脑,随后对符号进行解码,根据大脑中的知识来得到符号具体表达的意义。
关于进一步的知觉感知的研究总结,我们可以抽象人们识别可视化的三个步骤:
- Perception of raw visual signals,e.g. color, shape, etc. 原始信号感知
- Pattern recognition 模式识别
- Reasoning and Analysis 推理分析
可视化设计的目标就是要在以上三个步骤中,缩短人类的认知过程,达到准确高效的传递信息的目的。
可视化编码
我们基于数据集类型来选取合适的可视化形式,接下来需要根据具体的 数据条目(Item)的特性来确定合适的图元(Mark),最后根据 属性(Atrribute)来配置合适的视觉通道,对图元进行修饰。
- 图元
- Items / Nodes
- Links
选取了Mark之后,需要进一步描述Mark的具体视觉特性,这些特性称之为视觉通道(Visual Channels),视觉通道有很多,下图以6种通道和3种Mark相组合,可以很直观的体会二者之间的关系。
格式塔理论
-
邻近原则(proximity)
- 空间中距离相近的元素有被看作一体的趋势。人们会很自然的根据距离来对视觉对象进行分组。下图的分组柱形图,我们会很自然的把临近的柱子分为一组,其次才是观察颜色分组。
-
相似原则(similarity)
- 刺激物的形状、大小、颜色、强度等物理属性方面比较相似时,这 些刺激物就容易被组织起来而构成一个整体。如下图中,根据颜色和形状,将数据分为两组。
-
连通性原则 (Element Connectedness)
- 如果一些元素与其他元素相连时,我们认为这些元素是统一体。如下面的箱型图,如果没有中间的线上线相连,上下两条线是不会被看做一个整体进行分析的。
-
连续性原则 (Good continuation)
- 如果一个图形的某些部分可以被看作是连接在一起的,那么这些部分就相对容易被我们视为一个整体。如下面的折线图的连线,虽然是断开的多段线,但是我们仍然视之为一条折线。
-
封闭的原则(closure)
- 有些图形是一个没有闭合的残缺的图形,但主体有一种使其闭合的倾向。如下面的形状词云。

-
共同命运原则(common fate)
- 如果一个对象中的一部分都向共同的方向去运动,那这些共同移动的部分就易被感知为一个整体。如下方左图,我们会按照相似原则把每行看作一个分组,但是右侧由于共同的运动方向,我们会把每列看作一个分组。

2.3 交互/Interaction
静态的数据展示并不能满足用户需求,很多时候我们需要提供交互形式,使得用户可以对数据进行多维度的探索。《Visualization Analysis & Design》一书对交互进行了分类,分为以下9种。
- Change 改变
- Juxtapose 并列
- Filter 过滤
- Select 选择
- Partition 拆分
- Aggregate 聚合
- Navigate 导航
- Superimpose 叠加
- Embed 镶嵌
3 大数据可视化案例
略
4 大数据可视化学习资料
基础理论
- 《The Visual Display of Quantitative Information》
- 《Visualization Analysis & Design》
- 《信息可视化交互设计》
- 《Making Maps: A Visual Guide to Map Design for GIS》
编程实践
- 《Interactive Data Visualization for the Web》
- 《The Grammar of Graphics》
- 《Fundamentals of Data Visualization》
- D3.js