这是我参与「第四届青训营 」笔记创作活动的第23天
我们的图表格式是我们的用户获取的信息的最大因素——即便给定了相同的数据集! 让我们来看看我们用天气数据绘制的图表。
在第一章中,我们绘制了最高温度的时间线。看这张图表,我们可以看到温度是如何随时间变化的——每天或每个季节的天气有多一致?
在第二章中,我们创建了一个包含两个指标的散点图。看看这张图表,我们可以看到湿度和露点是如何相关的,回答以下问题:高湿度是否也意味着高露点?
在第三章中,我们创建了一个湿度值的直方图。看看这张图表,我们可以看到一个单一的指标有多少变化——大多数日子都保持在相同的湿度水平附近,还是它们都非常不同?
即使有了这三个示例和一个有限的数据集,我们也可以看到图表的类型将如何使用户能够回答非常不同的问题。还有许多其他类型的图表——因此,回答这个问题-什么类型的图表是最好的?它既重要,而且绝对是无限开放的。不过,别担心,这一章将为你提供快速做出决定的工具!
数据类型
给定一个数据集,第一个任务是确定可用指标的结构。让我们来看看我们的天气数据集的第一项。
这里有许多不同的值,但有两种基本类型:字符串和数字。 这两种类型可以粗略地(分别)分为两种基本类型的数据: 定性和定量。
定性数据(我们的字符串)没有数值,但可以放入 类别。 例如, precipType 的值可以是“rain”或“snow”
定量数据(我们的数字)是数字化的,可以被客观地测量。例如,温度最高的值从10°F到100°F。
这两种类型的数据都可以进一步分解。
定性数据
二进制数据只能被分为两类。
例如,如果我们的天气数据有一个真或假的下雨指标, 该指标将是二进制的。
定类数据可以放置在多个没有自然顺序的类别中。
例如,我们的天气数据具有公制图标,其中包含晴天和风等值——这些值无法排序。 定序数据可以按自然的顺序放在多个类别中。
例如,如果我们的天气数据用无风、微风和大风来表示风速值,则该指标将是有序的。