原⽂ 《Interactive Dynamics for Visual Analysis》
Jeffffrey Heer, 斯坦福⼤学 Ben Shneiderman, ⻢⾥兰⼤学帕克分校
本文分《一》《二》 《三》三节,是国外介绍可视化系统中交互操作部分的权威综述。
本文定位在已经对可视化各种视图有充分的理解的基础上,有兴趣了解可视化图表的小伙伴,我推荐阅读出自同门的 A Tour Through the Visualization Zoo
数据的规模和可利⽤性的⽇益增⻓,为公共政策、科学探索、商业策略,甚⾄是个⼈⽣活都提
供了⾮同寻常的⽀持。为了能够充分利⽤这些数据,我们必须让⽤户理解这些:去追寻问题、
揭示感兴趣的模式、辨识错误。数据分析需要数据管理系统和统计算法的配合下的情境化的⼈
为判断(依据数据中发现的集群、趋势、异常值在特定领域的重要性)。
可视化为理解数据提供了有⼒的途径。通过借助感知技巧来将数据属性映射到视觉特性上(如
位置、尺⼨、形状、颜⾊),可视化设计师帮助⽤户理解数据的模式(pattern)。单⼀的图像
⾄多只能回答⼀些问题,⽽可视分析通常执⾏于⼀个迭代的过程中:创造-探索-完善。有意义
的分析是由重复的探索构成的,伴随着⽤户建⽴起对重要关系、特定领域的情景化影响、因果
模式的洞察。令⼈困惑的控件、复杂的对话框、隐藏的操作、难以理解的显示⽅式以及缓慢的
响应会限制主题思考的深度和⼴度,减少深思熟虑并导致错误。为了更加有效,可视分析的⼯
具必须⽀持能够与⼈类思考速度相适应的流畅灵活的可视化。
这篇⽂章的⽬的是协助设计师、研究者、专业的分析师、采购经理、教师和学⽣来衡量和创造
可视分析的⼯具。我们展示⼀种对成功的分析有所贡献的交互的分类。这个分类类别由3个⼤
类12种任务类型构成,正如图表1所示。
这些分类包含了进⾏迭代可视分析的关键性任务,包括可视化构建、交互式查询、多视图协
作、历史记录、多成员合作。验证和更新这⼀分类是⼀个社区项⽬,它的推⾏通过反馈、批评
和完善来实现。
我们对交互元素的关注,是以假定对可视化设计有基本的熟知为前提的。纵使柱状图、散点
图、时间轴、节点-链接图的优缺点,以及这些视图底层的视觉编码的选定,都是很重要的考
虑因素,但是我们也将⼤幅略过这些内容。因为已经有很多⽂章和书籍详细介绍这些内容,我
们推荐你去阅读它们。
在展示各种类型(可视分析)的分⽀时,我们将⽤案例来体现有⽤的交互技巧。需要澄清的
是,这些例证并不能构成⼀个详尽的调查研究,⽽是传达交互操作的⾃然和多样性。贯穿在这
篇⽂章始终的“分析师”指的是那些使⽤可视化⼯具的⼈,⽽不是某个具体的⼈或者职位。这个
分析师的概念包含了任何想理解数据的⼈:传统的投资或犯罪⽹络分析师、揭示新观点的科学
家、编辑故事的记者以及从各⽅⾯(⽐如⾎压、开销、电⼒消费或者⾏驶⾥程)追踪⾃⼰⽣活
状况的⼈。
数据和视图指定
为了让分析师探索包含多种数据的(例如多变量、地理空间、⽂本的、随时间变化的、⽹状的
数据)⼤量数据集合,灵活的可视分析⼯具必去提供适当的控件去指定数据和相关视图。这些
控件让分析师选择性地可视化数据、过滤⽆关信息以专注于相关的项、将数据分类来揭示某种
模式。分析师同样需要从输⼊的数据中得到新的数据,例如归⼀化的值、统计学摘要或聚合。
可视化
在可视分析中最基础的操作就是指定⼀个数据的可视化:分析师必须指明要展示的是什么数
据,以及这些数据是如何被描绘的。
过去,这个过程要求编程来定制特定的可视化组件。这些可视化的⼩⼯具通被展示在⼀个图表
库当中,这个库中集合了可⽤的可视化模版,分析师可以把数据导⼊。这种交互⽅式会让电⼦
表格软件的⽤户迅速理解并熟悉:⽤户选择⼀个表格,分配数据变量到视觉属性上(例如XY
轴、视觉标识的⼤⼩尺⼨和颜⾊)。图表集的好处是简单,⽤户⽐较熟悉,但它也限制了可⽤
的可视化种类,使得在同⼀数据上尝试不同可视化效果变得困难。
有些可视化系统的设计师尝试过替代⽅法。传统科学技术可视化系统以及近期⼀些⽤于美学表
达的平台使⽤了“数据-流”图表,这种⽅法把可视化过程解构成细粒度的元件,来进⾏数据输
⼊、转换、排布、着⾊等。分析师通过交互⼿段将它们连在⼀起组成创新型的展示⽅案。通过
⽤灵活控件的组合,给可视化设计带来了很⼤的扩展空间。数据-流模式相⽐图表集需要更多的输⼊成本,同样也会受到可⽤元件种类限制。很多时候,创新性的设计需要编程专家来为平
台创造新的“积⽊”。
其他的系统基于可视化构建的形式⽂法(formal grammars)。这些⽂法构成⾼阶语⾔来简捷地描
述数据如何映射视觉特征。通过组合⼀系列这样的说明,分析师可以建构以设计为导向的复杂
定制化的可视化。这种途径可⽤许多受欢迎的可视化框架来实现,例如Leland Wilkinson
Grammar of Graphics, ggplot2 for the R 统计分析平台, 以及Protovis for HTML5。每种都要
求有最起码的编程能⼒。然⽽,Tableau 提供了⼀个通过拖拽操作来制定可视化的⼀个实例:
分析师把数据变量拖拽到货架(代指载⼊数据进⾏视觉编码的控件)上。这样的⽅式增强了表
现⼒,同时避免了对编程的要求。形式⽂法的另⼀个优势是可以被⾃动设计⼯具增强:这样的
系统可以从部分规范中提供多种可视化建议。虽然基于形式⽂法的可视化系统流畅⽽富有表现
⼒,但也需要⽤户理解其底层的⽣成模式。相⽐于熟悉的图表集,它的学习成本徒然增加。
幸运的是,这些途径并不是互斥的。分析师可以⽤数据-流模型或形式⽂法来定义新的可视化
控件,使其成为图表集中的⼀员,以此促进图表集的表现⼒和形式⽂法的易⽤性。新颖的可视
化界⾯设计依然是需要的。使⽤图形标志(⻓⽅形、线等)作为其基本图元的形式⽂法提供了
可以与交互式设计⼯具兼容的概念模型。⼏乎不需要编程的新⼯具可能会让⾃定义可视化设计
受⽤于更⼴泛的⼈群。
筛选
数值筛选对于数据可视化来说是很⾃然的,因为分析师很少会把整个数据集⼀次可视化出来。
取⽽代之的是,他们会为筛选过的数据构建多个维度的可视化。由于要概览所选数据,分析师
通常会在不同数据⼦集之间转移他们注释焦点,例如在检查不同的时间⽚段或者隔离特殊类型
的数据时。
设计师设计了许多交互技能来限制屏幕内项⽬的个数。分析师可能会直接选择屏幕⾥的项⽬,
然后⾼显或排除它们。我们将在后⾯讨论这些直接查看操作。另外的⼀种操作,是通过⼀些列
辅助控件,或者动态查询⼯具,来控制项⽬的可⻅性(如图2,3,4)。正确地选择这些⼯具
取决于数据本质类型的理解。表达类型和顺序数据可以通过单选、多选、可滚动的列表、层
级、带有⾃动完成的搜索框进⾏筛选。顺序的、定量的和表达时间多可以⽤标准的滑块(有单⼀阈值的)或者范围滑杆(有多个阈值的)来筛选。当与实时的可视化相结合时,它们可以实
现对数据⼦集的快速可逆的探索。图2中的Spotfifire 给予了多种控件来筛选可视化的数据:单
选和复选来筛选类型数据,⽤范围滑块来筛选定量数据;在右边,Google 酒店搜索给予了图
上范围、⽇期、价格区间的筛选。控件的⾃身能⼒也可以因可视化显示⽽增强:图3展示了⽤
频率直⽅图来展现增强范围滑块的例⼦。
专家级的分析可以从更⾼级的功能中获益。举个例⼦,⼀个搜索框可能要⽀持⾼级查询机制。
从或为简单或为复杂的关键词检索,到常规表达的匹配,到成熟的结构化的检索语⾔。尽管这
些机制⽆法⽀持像图形⼯具那样快速的、增⻓的探索,但它们提供了表示更的细微差别标准的
途径(可以理解为更精细的筛选标准)。筛选器也可以和其他操作发⽣交互,筛选可能以⽤户
特定的使⽤习惯进⾏,如在⽤户对数据分类后之后进⾏。⽤户也可能会创建衍⽣的值,并且在
结果内再进⾏搜索。
排序
排序是另⼀个⾮常基础的可视化操作。⼀个适当的排序可以⾼效地展现趋势、数值的集群以及
根据常⻅的分类单元组织数据。最常⻅的⽅式是根据⼀个或者多个变量的⼤⼩来进⾏排序。排
序控件可以是⼯具栏上的单选,或是对表格抬头进⾏的的⼀个点击来实现数量或⽂字的升序或
降序。⼀些特定的排序像“⼯作⽇”或“⽉份”对于揭示重要的模式是必要的。在多视图显示器中,排序将变得更为复杂,在这⾥整个图形和其中所含的值都将被排序来揭示
某种形式或异常。在进⾏多个图表对⽐时,跨图表(⽐如边际均值或中位值)之间的连续的排
序将揭示其中的形式。
有些数据类型(例如多变量的表格,⽹络)并不总是⽤简单数值进⾏排序。这些数据需要更
为复杂精细的排序⽅式,才能尽可能减⼩结果之间的指标差。其⽬的是通过数据揭示其底层的
架构(例如聚类)。图5中的例⼦,是⼀个基于矩阵的社交⽹络数据可视化。 左边的矩阵中,
⾏和列是按照字⺟数据排列的,呈现的结构并不清晰。当以“节点度”为依据进⾏重新排序后,
展现出了更多的结构(中图)。当以⽹络联通性进⾏排序时,展现出底层的社区的集群(右
图)。
获取
分析是在往复中进⾏的,⽤户可能发现输⼊的数据是不够⽤的-- 变量或许需要被转化成其他
值,或者需要从已有的值中获得新的值。常⻅的例⼦包括了标准化或log形变来实现更有效的
数据对⽐。这些获得的参数指标通常⽤于对输⼊数据进⾏概括描述。从统计学描述(平均值、
中位数、⽅差),到模型拟合(回归线)和数据转化(聚合数据的数量或总和)。当分析师在
可视分析之前从输⼊数据获取新的值时,在⼀堆⼯具之间跳转成本阻碍了灵活、可迭代的探索
过程。因此可视分析⼯具应当集成这些功能以实现从输⼊数据中获得新的数据的能⼒。这些功
能通常都是通过计算语⾔来实现的,有点类似于电⼦数据表或者数据库查询⽤的语⾔。除了这
些基础功能,假设测试(t-tests, ANOVA)也将增强统计功能和可视化平顺整合带来的收益。
就可视分析来⾔,改进的数据获取⽅法展现了⼴阔的前景。视觉⼯具如何才能⽀持灵活的构建
更⾼级的模型和获取值呢?通过演示编程⼿段,分析师可以⽤从系统中产⽣的模式识别规则来
对⼀个模式(⽐如⽹络攻击)进⾏注解。视觉⼯具也可以⾃动匹配适⽤的统计模型到当前阶段
可视化的数据。举个例⼦,共轴显示中的变量嵌套可以匹配线性模型的结构。更多把可视化和
建模以及预测整合的规则性架构仍然在不断涌现中。
本节完