数据可视化三部曲之翩舞于跳动 | 青训营笔记

165 阅读9分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 15 天

在第一部曲中,我们把握了数据可视化的大脉络,那么本章,我将带大家深入其中,感受数据的跳动

数据可视化的魅力并不在于统计,而是在于表现数据与数据之间的关系。

数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。通常一个数据可视化的表格需要的数据有两个:

1:维度

2:度量(数字)

一个完整的图表是必须同时有维度和度量两个指标的。

对应图表中的指标通常有四个:

1:行

2:列

3:筛选逻辑(变量关系)

4:标记(图形表现)

实际上,从“数据可视化”的命名,便很容易看出数据可视化从业者如何开始可视化设计,那便是:处理数据,设计视觉,完成从数据空间到可视空间的映射, 必要时重复数据处理和图形绘制的循环组合。

误区与陷阱

误区一:显示所有的数据

尽管我们多次被告诫,大多数人并不关心你对多少数据做了多少量化指标的处理,他们不在乎你每天可以处理多少数据,或您的Hadoop集群有多大。用户想要的是具体的或者相关的答案,并且他们希望越早得到越好。但是有些数据可视化工具,还是会把无关的数据显示在页面上,目的是希望接近企业所需,但事实上造成了用户很难找到有价值的信息。

现在仪表板应用非常流行,其指导思想是可以“显示所有状态的数据。大多数性能是枯燥的数据展示,而多异化功能则被隐藏。其实,好的仪表板数据展示,是把重要数据做了了趣味化的展示处理。让用户做一个有效排序,哪些是优先处理,哪些需要延后处理。数据可视化可以达到仪表盘达不到的能力,可以更好地处理数据报告。

误区二:显示错误的数据

显示错误的数据和显示所有的数据同样存在隐性危机。在数据可视化操作中,显示的信息子集与数据是相关的关系。比如你关心销售数据,您可能也关心每个地区或者个别销售人员的销售数据,考虑通过数据做出决策。把几个关联性很强的图表进行折中处理,选择一个图片来展示,这实际上需要一个复杂的数据可视化能力来完成,而且相关几个图片的数据必须做到干净、清晰。

误区三:美化数据展示结果

即使你采用干净的数据绘制图表,你仍然会弄错。因为特殊化的表格类型展示很少见,绝大多数的可视化需求都是用来满足线形图、饼图等基本图形。

要想美化数据展示,在处理关键数据字与段之间的关系时,就应该考虑把指定字段加在坐标轴上。按照组别、类别、数据时间、数据量级以及重要性进行划分,尤其是颜色类别一定要有,并且可以自定义亮度和饱和度,确保在使用本标签或者其他标签的时候做到准确无误。

为了避免失误,最好的方法是专注于你的目标。在可视化应用之前就应该考虑:我们关心什么?需要做什么?要解决什么问题?要看到怎样的数据?以怎样的结构和关系来展示?要突出哪些数据?当你能够回答这些问题时,你就可以进行数据可视化的设计或者应用了。

设计理念

1. 分析数据

确定分析思路

首先,我们需要对数据做一个全面而细致的解读,分析体系化,以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能保证分析维度的完整性,分析结果的有效性及正确性。分别从政治、经济、社会、技术等方面切入。

数据收集

收集方法有:数据库,互联网,公开出版物,市场调查

数据处理

处理内容包括:数据清洗,数据转化,数据提取,数据计算

数据分析

定义:数据分析是指用适当的方法及工具,对处理过的数据进行分析,提取有价值的数据进行分析,提取有价值的信息,形成有效结论的过程。

数据展现

一般情况下,数据是通过表格和图形的方式来展现的,常用的数据图包括饼图、柱形图、条形图、折线图、散点图、雷达图等。这些图表可以进一步加工整理使之变成我们需要的图形,例如:金字塔图,矩阵图,漏斗图,帕累托图

报告撰写

首先,需要一个好的分析框架,并且图文并茂
其次,需要有明确的结论
最后,一定要有建议和解决方案

降维

一般而言,同一可视化图表中能够承载的维度有限(很难超过3个维度),必须对整个数据集进行降维处理。

2. 可视化设计

在开始设计之前,我们需要对人类视觉以及注意力作简要分析,这决定着我们如何在第一时间抓住受众的注意力。

人类视觉感知到心理认知的过程要经过信息的获取、分析、归纳、解码、储存、概念、提取、使用等一系列加工阶段,每个阶段需要不同的人体组织和器官参与。简单来讲,人类视觉的特点是:

  • 对亮度、运动、差异更敏感,对红色相对于其他颜色更为敏感;
  • 对于具备某些特点的视觉元素具备很强的“脑补”能力,比如空间距离较近的点往往被认为具有某些共同的特点;
  • 对眼球中心正面物体的分辨率更高,这是由于人类晶状体中心区域锥体细胞分布最为密集;
  • 人们在观察事物时习惯于将具有某种方向上的趋势的物体视为连续物体;
  • 人们习惯于使用“经验”去感知事物整体,而忽略局部信息。

这里引入一个概念——可视编码,它数据信息映射为可视化元素的技术,其通常具有表达直观、易于理解和记忆的特性。数据包含属性和值,相应可视编码也由两部分组成:标记和视觉通道,标记代表数据属性的分类,视觉通道表示人眼所能看到的各种元素的属性,包括大小、形状、颜色等,往往用来展示属性的定量信息。例如,对于柱状图而言,标记就是矩形,视觉通道就是矩形的颜色、高度或宽度等。

数据可视化的设计目标和制作原则在于信、达、雅,即一要精准展现数据的差异、趋势、规律,二要准确传递核心思想,三要简洁美观,不携带冗余信息。结合人的视觉特点,很容易总结出好的数据可视化作品的基本特征:

  • 让用户的视线聚焦在可视化结果中最重要的部分;
  • 对于有对比需求的数据,使用亮度、大小、形状来进行编码更佳;
  • 使用尽量少的视觉通道编码数据,避免干扰信息。

可视化大屏提供丰富的二维及三维图形展现, 平面图表是常见的视图元素。界面侧边栏提供应有尽有的可视化视图列表,包含了太阳图、柱状图、饼图、玫瑰图、折线图、雷达图、静态和动态地图、环状图、文本标签云等常用图形。用户点击可视化视图选项后,系统会进行视图类型与数据结构匹配。

1676346755666.png

3. 配色

相信每一个码农出身的数据分析师在做可视化设计时,都会对色彩如何搭配产生过困惑。色彩理论看起来简单却又乏味,用起来却不是那么得心应手。那么,如何让数据可视化作品简约、灵动、美观?下面介绍一些通用技巧。

1)色调与明度的跨度都要大

要确保配色非常容易辨识与区分,它们的明度差异一定要够大。明度差异需要全局考虑。但是,有一组明度跨度大的配色还不够。配色越多样,用户越容易将数据与图像联系起来。 2)仿照自然的配色

各行各业的设计师都知道这个小秘密,对于数据可视化工程师而言,这招更是屡试不爽。一个简单有效的方法是:找出心仪的图片,比如唯美的风景照片,使用photoshop中“滤镜—马赛克—调整多边形形状和大小”即可看到该图片中包含的各种颜色,然后利用吸管工具选出几种颜色即可

3)使用渐变

无论你需要2种颜色还是10种,渐变中都能提取出这些颜色,让可视化图表感觉自然,同时保有足够的色调与明度差异。一个使用渐变的好方法就是:在Photoshop中拉辅助线到断点位置,与数据的数量对应上,然后持续对渐变进行测试与调整。

1676346311601.png

可以看到,配色表紧挨着顶部的灰度渐变,调整渐变叠加(之后就能得到精确的渐变色值),然后从那些断点处选取颜色,测试配色在实际运用中的效果。

4.统计图表

统计图表是使用最早的可视化图形,在数百年的进化过程中,逐渐形成了基本“套路”,符合人类感知和认知,进而被广泛接受。

常见于各种分析报告的有柱状图、折线图、饼图、散点图、气泡图、雷达图,对于这些最常用的图表类型,下表可以为你指明大致方向:

1676346276439.png