这是我参见「第五届青训营」伴学笔记创作活动的第 14 天
什么是数据可视化
Anything that converts data into a visual representation(like charts, graphs, maps, sometimes even just tables)
-
数据可视化分类
- 科学可视化
- 信息可视化
- 可视分析
-
为什么要可视化
- 01、记录信息
- 02、分析推理
- 03、证实假设
- 04、交流思想
可视化设计原则和方法
能够正确地表达数据中地信息而不产生偏差与歧义
-
常见的错误可视化
-
01、透视失真
- 如果数字是由视觉元素表示的,那么它们应该与视觉元素的感知程度成正比
- 使用清晰、详细和彻底的标签,已避免图形失真和含糊不清。
-
02、图形设计 & 数据尺度
- 图形的每一部分都会产生对其的视觉预期
- 这些预期往往决定了眼睛实际看到的东西
- 错误的数据洞察,产生于在图形的某个地方发生的不正确的视觉预期推断。
- 图形的每一部分都会产生对其的视觉预期
-
03、数据上下文
-
谎言因子
- 控制图形中的谎言因子(Lie Factor,LF)
- 谎言因子:衡量可视化中表达的数据量与数据之间的夸张程度的度量方法。谎言因子:衡量可视化中所表达的数据量与数据之间的夸张程度的度量方法。谎言因子=数据所对应的图形元素的相对变化量/数据的真实变化量
- 当 LF=1 时,我们认为图标没有对数据实时进行扭曲,是一个可信的可视化设计。
- 在实际当中,应当确保各部分图形元素的 LF 在[0.95, 1.05]范围内,否则,所产生的图标认为已经丧失了基本可信度。
-
-
可视化设计原则
- 准确地展示数据
- 节省笔墨
- 节省空间
- 消除不必要的 “无价值” 图形
- 在最短时间内传达最多的信息
-
Data-ink Ratio(最大化数据墨水占比)
- 可视化图形由墨水和空白区域构成
- 数据墨水:可视化图形当中不可擦除的核心部分被称为 “数据墨水”
- 擦除数据墨水将减少图形所传达的信息量
- 数据墨水占比:可视化图形中用于展示核心数据的 “墨水” 在整体可视化所使用的墨水中的比例
- Data-ink ratio = Data-ink / Total ink used to print the graphics
- 绝大多数墨水都是数据墨水
- 用于绘制散点和对应标签
- 10% - 20% 的墨水是非数据墨水
- 用于绘制坐标轴和刻度线
- 并非所有的非数据墨水都没有用(例如坐标轴信息)。
- 提高Data-ink ratio
- 两个擦除原则:
- 擦除非数据墨水
- 擦除冗余的数据墨水
- 非数据墨水是指不能描绘有价值信息的墨水:有时,非数据墨水会使数据变得混乱不堪;并非所有的数据墨水都没有用。
- 冗余的数据墨水描述了信息,但它重复显示了信息。
- 两个擦除原则:
-
可视化设计方法
- 最重要的是展示数据
- 合理范围内,最大化数据墨水占比
- 擦除非数据墨水
- 擦除冗余的数据墨水
视觉感知
客观事物通过人的视觉在人脑中形成的直接反映
- 格式塔理论
- 就近原则(Proximity)
- 相似原则(Similarity)
- 连续性原则(Continuation)
- 闭合原则(Closure)
- 共势原则(Common movement)
- 对称性原则(Symmetry)
- 图形与背景关系原则(Figure-ground)
视觉编码
将数据信息映射成可视化元素的技术。
- 可视化符号(Mark):用于在可视化当中表现数据元素或元素之间的关联。
- 当表示元素时Mark包括:点、线、面
- 当表示关系时Mark包括:闭包、连线
- 视觉通道(Channel):基于数据属性,控制可视化的符号展现样式,例如,点根据其所代表的数据属性的不同可有不同的形状与颜色。
- 数量通道(Magnitude Channel)用于显示数据的数值属性(定量/定序)包括:位置、长度、角度、面积、深度、色温、饱和度、曲率、体积。
- 标识通道(Identity Channel)用于显示数据的分类属性(是什么、在哪里)包括:空间区域、色向、动向、形状
基础统计图标
- 柱状图
- 饼图(Pie)
- 散点图(Scatter)
- 折线图
面向前端的可视化工具介绍
D3.js
Vega
G2可视化引擎
ECharts