这是我参与「第四届青训营 」笔记创作活动的第6天
1.数据可视化是什么
顾名思义,数据可视化就是将数据转换成图或表等,以一种更直观的方式展现和呈现数据。通过“可视化”的方式,我们看不懂的数据通过图形化的手段进行有效地表达,准确高效、简洁全面地传递某种信息,甚至我们帮助发现某种规律和特征,挖掘数据背后的价值。
对于经常需要用数据、做分析、理逻辑的人来说,数据可视化是一项非常实用的分析方法。好的可视化,有助于快速发现数据背后的规律、找到原因、作出判断。
2.数据可视化基本流程
可视化主流程的各模块之间,并不仅仅是单纯的线性连接,而是任意两个模块之间都存在联系。例如,数据采集、数据处理和变换、可视化编码和人机交互方式的不同,都会产生新的可视化结果,用户通过对新的可视化结果的感知,从而又会有新的知识和灵感的产生。
(1)数据采集:
数据采集是数据分析和可视化的第一步,俗话说“巧妇难为无米之炊”,数据采集的方法和质量,很大程度上就决定了数据可视化的最终效果。
数据采集的分类方法有很多,从数据的来源来看,可以分为内部数据采集和外部数据采集。
(2)数据处理和变换:
数据处理和数据变换,是进行数据可视化的前提条件,包括数据预处理和数据挖掘两个过程。
一方面,通过前期的数据采集得到的数据,不可避免的含有噪声和误差,数据质量较低;另一方面,数据的特征、模式往往隐藏在海量的数据中,需要进一步的数据挖掘才能提取出来。
(3)可视化映射:
对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。
可视化元素由3部分组成:可视化空间+标记+视觉通道
(4)人机交互:
常见的交互方式包括:
- 滚动和缩放:当数据在当前分辨率的设备上无法完整展示时,滚动和缩放是一种非常有效的交互方式,比如地图、折线图的信息细节等。但是,滚动与缩放的具体效果,除了与页面布局有关系外,还与具体的显示设备有关。
- 颜色映射的控制:一些可视化的开源工具,会提供调色板,如D3。用户可以根据自己的喜好,去进行可视化图形颜色的配置。这个在自助分析等平台型工具中,会相对多一点,但是对一些自研的可视化产品中,一般有专业的设计师来负责这项工作,从而使可视化的视觉传达具有美感。
- 数据映射方式的控制:这个是指用户对数据可视化映射元素的选择,一般一个数据集,是具有多组特征的,提供灵活的数据映射方式给用户,可以方便用户按照自己感兴趣的维度去探索数据背后的信息。这个在常用的可视化分析工具中都有提供,如tableau、PowerBI等。
(5)用户感知:
可视化的结果,只有被用户感知之后,才可以转化为知识和灵感。 用户在感知过程,除了被动接受可视化的图形之外,还通过与可视化各模块之间的交互,主动获取信息。 如何让用户更好的感知可视化的结果,将结果转化为有价值的信息用来指导决策,这个里面涉及到的影响因素太多了,心理学、统计学、人机交互等多个学科的知识。
3.数据与数据集分类
数据可以被分为以下五种类别:
- Items:具体的每一条数据
- Attributes:条目的每个字段的属性
- Links:数据之间的关系
- Positions:位置
- Grids:网格
数据集被分为以下五种类别:
- Tables:表格数据
- Networks & Trees:层次结构数据
- Fields:场数据
- Geometry:几何数据
- 其他集合类型:Clusters,Sets,Lists
个人总结:这节课我主要对数据可视化的概念和原理有了一个整体的认知,学习了数据可视化的基本流程和一些数据与数据集方面的内容