数据可视化基础 | 青训营笔记

98 阅读4分钟

这是我参见「第五届青训营」伴学笔记创作活动的第 14 天

什么是数据可视化

Anything that converts data into a visual representation(like charts, graphs, maps, sometimes even just tables)

  • 数据可视化分类

    • 科学可视化
    • 信息可视化
    • 可视分析
  • 为什么要可视化

    • 01、记录信息
    • 02、分析推理
    • 03、证实假设
    • 04、交流思想

可视化设计原则和方法

能够正确地表达数据中地信息而不产生偏差与歧义

  • 常见的错误可视化

    • 01、透视失真

      • 如果数字是由视觉元素表示的,那么它们应该与视觉元素的感知程度成正比
      • 使用清晰、详细和彻底的标签,已避免图形失真和含糊不清。
    • 02、图形设计 & 数据尺度

      • 图形的每一部分都会产生对其的视觉预期
        • 这些预期往往决定了眼睛实际看到的东西
        • 错误的数据洞察,产生于在图形的某个地方发生的不正确的视觉预期推断。
    • 03、数据上下文

    • 谎言因子

      • 控制图形中的谎言因子(Lie Factor,LF)
      • 谎言因子:衡量可视化中表达的数据量与数据之间的夸张程度的度量方法。谎言因子:衡量可视化中所表达的数据量与数据之间的夸张程度的度量方法。谎言因子=数据所对应的图形元素的相对变化量/数据的真实变化量
      • 当 LF=1 时,我们认为图标没有对数据实时进行扭曲,是一个可信的可视化设计。
      • 在实际当中,应当确保各部分图形元素的 LF 在[0.95, 1.05]范围内,否则,所产生的图标认为已经丧失了基本可信度。
  • 可视化设计原则

    • 准确地展示数据
    • 节省笔墨
    • 节省空间
    • 消除不必要的 “无价值” 图形
    • 在最短时间内传达最多的信息
  • Data-ink Ratio(最大化数据墨水占比)

    • 可视化图形由墨水和空白区域构成
    • 数据墨水:可视化图形当中不可擦除的核心部分被称为 “数据墨水”
    • 擦除数据墨水将减少图形所传达的信息量
    • 数据墨水占比:可视化图形中用于展示核心数据的 “墨水” 在整体可视化所使用的墨水中的比例
    • Data-ink ratio = Data-ink / Total ink used to print the graphics
    • 绝大多数墨水都是数据墨水
      • 用于绘制散点和对应标签
    • 10% - 20% 的墨水是非数据墨水
      • 用于绘制坐标轴和刻度线
      • 并非所有的非数据墨水都没有用(例如坐标轴信息)。
    • 提高Data-ink ratio
      • 两个擦除原则
        • 擦除非数据墨水
        • 擦除冗余的数据墨水
      • 非数据墨水是指不能描绘有价值信息的墨水:有时,非数据墨水会使数据变得混乱不堪;并非所有的数据墨水都没有用。
      • 冗余的数据墨水描述了信息,但它重复显示了信息。
  • 可视化设计方法

    • 最重要的是展示数据
    • 合理范围内,最大化数据墨水占比
      • 擦除非数据墨水
      • 擦除冗余的数据墨水

视觉感知

客观事物通过人的视觉在人脑中形成的直接反映

  • 格式塔理论
    • 就近原则(Proximity)
    • 相似原则(Similarity)
    • 连续性原则(Continuation)
    • 闭合原则(Closure)
    • 共势原则(Common movement)
    • 对称性原则(Symmetry)
    • 图形与背景关系原则(Figure-ground)

视觉编码

数据信息映射成可视化元素的技术。

  • 可视化符号(Mark):用于在可视化当中表现数据元素或元素之间的关联。
    • 当表示元素时Mark包括:点、线、面
    • 当表示关系时Mark包括:闭包、连线
  • 视觉通道(Channel):基于数据属性,控制可视化的符号展现样式,例如,点根据其所代表的数据属性的不同可有不同的形状与颜色。
    • 数量通道(Magnitude Channel)用于显示数据的数值属性(定量/定序)包括:位置、长度、角度、面积、深度、色温、饱和度、曲率、体积。
    • 标识通道(Identity Channel)用于显示数据的分类属性(是什么、在哪里)包括:空间区域、色向、动向、形状

基础统计图标

  • 柱状图
  • 饼图(Pie)
  • 散点图(Scatter)
  • 折线图

面向前端的可视化工具介绍

D3.js

Vega

G2可视化引擎

ECharts