这是我参与「第四届青训营 」笔记创作活动的的第15天
什么是数据可视化
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
数据可视化分类
- 科学可视化
- 信息可视化
- 可视分析
为什么要可视化
- 记录信息
- 分析推理
- 证实假设
- 交流思想
安斯库姆四重奏
安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。
可视化设计原则和方法
可视化设计原则
能够正确地表达数据中的信息而不产生偏差与歧义
- 准确地展示数据
- 节省笔墨
- 节省空间
- 消除不必要的“无价值”图形
- 在最短时间内传达最多的信息
常见的错误可视化
- 透视失真
- 如果数字是由视觉元素表示的,那么它们应该与视觉元素的感知程度成正比。
- 使用清晰、详细和彻底的标签,以避免图形失真和含糊不清。
- 图形设计&数据尺度
图形的毎一部分都会产生对其的视觉预期( visual expectation ):
- 这些预期往往决定了眼睛实际看到的东西;
- 错误的数据洞察,产生于在图形的某个地方发生的不正确的视觉预期推断。
- 数据上下文
可视化设计方法
●最重要的是展现数据
●合理范围内,最大化数据墨水占比
●擦除非数据墨水
●擦除冗余的数据墨水
视觉感知
●人类视觉系统观察的是变化,而不是绝对值,并且容易被边界吸引。
●在可视化设计中,设计者需要充分考虑到人类感知系统的这些现象,以使得设计的可视化结果不会存在阻碍或误导用户的可视化元素。
视觉编码
视觉编码是一种:
将数据信息映射成可视化元素的技术
基础统计图表
柱状图
●将柱子的高度(或宽度)映射到数值大
●最基础的柱形图,需要一个分类变量和一个数值变量。
●柱状图必须以0作为基准线,可以表示正值或负值
●在柱状图中,柱子可以分组展示
●柱状图是比较分类的数据的最佳选择
饼图
●每个扇形的弧长(以及圆心角和面积)大小,表示该种类占总体的比例
●饼图最显著的功能在于表现“占比”
●饼图一般需要一个分类数据字段、一个连续数据字段
●分类字段的数据,在图表使用的语境下,应当构成一个整体(例如一班、二班、三班,构成了整个高一年级),而不能是独立、无关的。
●由于饼图用面积取代了长度,从而加大了对各个数据进行比较的难度,当需要对数据进行比较,分清孰大孰小,尤其是当数据接近时,柱状图更加合适。\
散点图
●一般通过点在空间上的位置信息来编码数据
●点可以根据需要绘制成不同的颜色
●点既可以是一个圆形,也可以用其他不同形状来替代。
形状也是一个重要的视觉通道,用于编码不同数据信息。
●可以通过更复杂的组合图形( glyphs )来编码多维度数据。
●散点图适用于分析变量之间是否存在某种关系或相关
●散点图适用于分析变量之间相关性的强弱,我们可以通过查看图上数据点的密度来确定相关性的强弱\
折线图
大多数情况下,折线图适用于x轴为连续数据的场景,但:
●也可以在x轴为离散数据时使用;
●甚至可以用于分类数据时使用,如果分类数据的顺序是有意义的。