数据可视化 | 青训营笔记

69 阅读4分钟

这是我参与「第五届青训营」笔记创作活动的第14天。

数据可视化

数据可视化是以图形方式呈现结构化或非结构化数据,从而将隐藏在数据中的信息直接呈现给人们

为什么要可视化

  1. 记录信息
  2. 分析推理
  3. 证实假说
  4. 交流思想

可视化设计原则和方法

能够正确的表达数据中的信息而不产生偏差与歧义

常见错误可视化

  1. 透视失真

    • 如果数字是由视觉元素表示的,那么他们应该与视觉元素的感知程度成正比
    • 使用清晰、详细和彻底的标签,以避免图形失真和含糊不清
  2. 图形设计&设计尺度

    • 图形的每一部分都会产生对其的视觉预期,这些预期往往决定了眼睛实际看到的东西,错误的数据洞察产生于图形的某个地方发生的不正确的视觉预期推断
    • 例如轴刻度,我们总是希望它能从始至终保持连贯一致

设计原则和方法

  1. 可视化设计原则

    • 准确展示数据
    • 节省空间
    • 节省笔墨
    • 消除不必要的无价值图形
    • 在短时间内传达最多的信息
  2. 谎言因子

    • 谎言因子:衡量可视化中所表达的数据量与数据之间的夸张程度的度量方法
    • 谎言因子 = (数据对应图形元素相对变化量)/(数据的真实变化量)
    • 在实际当中,应当确保各部分图形元素LF在[0.95,1.05]范围内,否则认为其已经丧失了基本可信度
  3. 最大化数据墨水占比

    • 可视化图形由墨水和空白区域构成
    • 数据墨水:可视化图形当中不可擦除的核心部分
    • 数据墨水占比:可视化图形中用于展示核心数据的“墨水”在整体可视化所使用的墨水中的比例

视觉感知

格式塔理论

  1. 就近原则:人们倾向于将视觉元素空间距离相近的归为一组
  2. 相似原则:形状、大小、颜色、强度等属性方面相似时,这些物体就容易被看作一个整体
  3. 连续性原则:人们观察事物的时候会沿着物体的边界,将不连续的物体是做连续的整体
  4. 闭合原则:有些图形可能本身不完整或不闭合,但主题有一种十七闭合的倾向,人们就会很容易地感知整个物体而忽略未闭合的特征
  5. 共势原则:如果一个对象中的一部分都向共同的方向去运动,那这些共同移动的部分就容易被感知为一个整体
  6. 对称性原则:堆成的元素被视为同一组的一部分
  7. 图形与背景关系原则:大脑通常认为构图中最小的物体是图形,更大的物体是背景,跟凹面元素相比,凸面元素与图形相关联更多

视觉编码

视觉编码是一种将数据信息( 属性+值 )映射成可视化元素( 可视化符号+视觉通道 )的技术

基础统计图表

柱状图

  • 将柱子的高度或宽度映射到数值大小
  • 柱状图必须以0为基准线,可以表示正值或负值
  • 柱状图是比较分类数据的最佳选择

饼图

  • 每个扇形的弧长以及圆心角和面积大小,表示该种类占总体的比例
  • 饼图最显著的功能在于表现占比

散点图

  • 一般通过点在空间上的位置信息来编码数据
  • 散点图适用于分析变量之间是否存在某种关系,分析相关性强弱

折线图

  • 折线图适用于以X轴作为连续数据的场景
  • 适用于表现数据趋势进行预测

面向前端的可视化工具介绍

  • D3
  • Vega
  • G2
  • ECharts