这是我参与「第四届青训营 」笔记创作活动的第14天。
第二十节课「大数据可视化理论与案例分析」的内容主要包含 4 个方面:定义、原理、案例、学习。这篇文章包括可视化相关定义和数据可视化的数据介绍。
定义
什么是可视化
通过视觉元素(图像,图表,动画等等)来进行信息交流的方式都可以称之为可视化。
什么是数据可视化
任何可以将数据转换为可视化表示的东西(如图表、图形、地图,有时甚至只是表格)
数据可视化作用
- 直观展示
- 数据探索
- 促进沟通与交流
原理
数据可视化基本流程
第一步 : 数据处理(Abstract Data)
只有满足特定结构的数据才能做对应的可视化展现,而且为了达到好的可视化效果也需要对数据进行清洗、转换等操作。
第二步 : 可视化设计与表达(Visualization Design)
根据数据特征选择合适的展现模式,在此基础上通过合理的使用视觉编码,来定义最终的可视化展现内容。
第三步:可视化渲染(Rendering and Display)
将定义好的图形转换成为图像,展现给观众。
第四步:可视化交互(Interactivity)
单一的可视化结果并不能满足用户的多方面诉求,用户往往借助交互方式,进一步了解细节或者对数据进行筛选、聚合、分面等,对数据进行多方面的探索。
数据
-
数据:能被存储和处理的信息。
-
数据集:每一个种类的数据都是一个大的集合,由多条小的数据条目组成。
数据集分为结构化和非结构化(比如文字、图像),数据可视化只能对结构化数据进行呈现。非结构化数据经过处理之后,可以转换为结构化数据,进一步进行可视化展现。比如文本,我们可以通过自然语言处理、机器学习、文本挖掘等多种手段将其转化为结构化数据。
数据与数据集分类
数据可以被分为以下五种类别:
- Items:具体的每一条数据
- Attributes:条目的每个字段的属性
- Links:数据之间的关系
- Positions:位置
- Grids:网格
数据集被分为以下五种类别:
- Tables:表格数据
- Networks & Trees:层次结构数据
- Fields:场数据
- Geometry:几何数据
- 其他集合类型:Clusters,Sets,Lists
一个数据集可以由一种或者多种数据类型组成,包含关系如下表:
- 表格(Tables):使用行、列和单元格的概念来存储数据的结构,每一行是一条数据,每一列都有一个统一的属性定义。
- 网络和树(Networks or Trees):核心概念就是“关系”。必须要显示的定义数据条目之间的关联关系才能绘制出网络图和树图。
- 场(Fields):用于描述磁场、电场、风场等数据,存储结构是网格(grid),每个网格中一般是向量、标量或者张量。
- 几何数据(Geometry (Spatial))集:几何图形数据的几何,通常用来描述地理信息。
属性分类
数据集中的数据条目都会包含一个或者多个属性(Attribute),属性分为分类(Categorical)和排序(Ordered)属性。排序属性又分为顺序(Ordinal)和定量(Quantitative)两种类别。
个人总结
了解了什么是可视化、什么是数据可视化、数据可视化作用、数据可视化基本流程、数据与数据集分类、属性分类。