如何运行数据可视化项目

109 阅读9分钟

每个数据可视化项目都始于需求,无论需求来自问题还是决策,每个项目都有特定的流程。首先,每个项目都需要数据进行可视化。在每个数据可视化项目中,都需要考虑许多因素来最大程度地降低风险并确保项目成功。

本文将解释其中的许多概念以及可用于特定类型业务的一些用例。探索的关键主题之一是风险,因为在决定使用哪些数据以及特定图表类型如何最好地表征数据时,最小化风险是一个关键因素。除了风险之外,团队还可能面临与数据无关的某些限制。需要考虑团队中的人员和技能,因为这可能会限制可视化可以呈现给哪些受众。

在设计数据分析项目时,我们常常想知道首先从哪里开始?从数据收集、清理、探索、分析和可视化,需要做很多工作才能获得对业务可操作且有利可图的洞察力。

步骤 1:了解业务问题

在项目开始时,重点是清楚了解工作的整体范围、业务目标、利益相关者正在寻求的信息、他们希望你使用的分析类型以及关键的可交付成果。在开始分析之前定义这些元素很重要,因为它有助于提供更好的洞察力。此外,一开始就搞清楚很重要,因为在项目完成之前可能没有另一个提问的机会。

步骤 2:了解数据集

此阶段从初始数据收集开始,然后进行数据质量检查、数据探索等活动,以发现对数据的初步见解,或检测有趣的子集以形成隐藏信息的假设。我们可以使用多种工具来理解数据。根据数据集的大小,我们可以使用 Excel 来管理可管理的数据集,或者使用更严格的工具,如 R、Python、Alteryx、Tableau Prep 或 Tableau Desktop 来探索和准备数据以供进一步分析。

要记住的关键事项是确定关键变量以研究数据、查找错误(遗漏的数据、逻辑上没有意义的数据、重复的行,甚至拼写错误)或任何需要修改的缺失变量所以我们可以正确地清理数据。

重要的是要注意,在企业/业务环境中工作时,让对源系统具有敏锐知识的人员(例如 DBA)参与进来会有所帮助,他们可以帮助理解和提取数据。

步骤 3:数据准备

一旦组织了数据并确定了所有关键变量,我们就可以开始清理数据集。在这里,我们将处理缺失值(替换为均值、删除行或替换为最符合逻辑的值)、创建新变量以帮助对数据进行分类并删除重复项。数据准备任务可能会执行多次,并且没有任何规定的顺序。在此步骤之后,最终数据集已准备好输入建模工具进行进一步分析。

从业务角度来看,在整个数据准备过程中,需要不断加深对数据结构、内容、关系和派生规则的理解。必须验证数据是否处于可用状态,并且可以管理其缺陷,并了解将其转换为用于报告和可视化的有用数据集需要什么。在这种情况下,利用数据剖析可以帮助探索企业源系统中的实际内容和关系。数据分析可以像编写一些 SQL 语句一样简单,也可以像专用工具一样复杂。例如,Tableau 的数据准备是用于分析小型项目数据的绝佳工具。对于企业,很多ETL供应商提供了多种工具,可以根据业务的需要和预算进行选择。

步骤 4:建模

在这一步中,我们将使用各种建模技术来测试数据并寻找给定目标的答案。通常,同一数据挖掘问题类型有多种技术,对数据形式有一些特定要求。常见模型包括线性回归、决策树和随机建模等。

步骤 5:验证

一旦我们完成构建模型(或多个模型)并进行最终部署,就必须彻底评估模型并审查构建模型所执行的步骤,以确保其正确实现业务目标。模型是否正常工作?数据是否需要更多清洗?你找到客户想要回答的结果了吗?如果没有,可能需要再次执行前面的步骤。

在此步骤中,关键是确定问题、定义、转换规则和数据质量挑战,并将其记录下来以备将来参考。从商业角度来看,这样的文档对于未来的用户很有用。维护问题列表并验证数据验证期间面临的新问题可以显着提高项目质量,并有助于扩大未来改进的范围并定义业务的基础设施需求。

步骤 6:可视化

模型的创建通常不是项目的结束。即使模型的目的是增加对数据的了解,也需要以对客户有用的方式组织和呈现派生的信息。根据要求,此步骤可以像生成报告一样简单,也可以像实施可重复的数据评分(例如段分配)或数据挖掘过程一样复杂。

在许多情况下,数据可视化对于将你的发现传达给客户至关重要。并非所有客户都精通数据,而 EasyV、Tableau 等交互式可视化工具对于向客户说明你的结论非常有用,能够用你的数据讲故事,有助于向客户解释你的发现的价值。

与任何其他项目一样,清楚地确定业务目标很重要。将流程分解为多个步骤将确保我们为客户提供最好的可交付成果。

第 7 步:文档

数据可视化项目中步骤的一个重要补充是文档。与课堂上完成的项目类似,该文档应简要描述项目、数据来源、数据概况和质量、数据的局限性或在数据使用过程中出现的情况、引入的关键转换和模型及其影响或有用性,提高可视化质量。最后,本文档还应注意在处理数据或创建可在未来解决的特定可视化时遇到的问题。

数据可视化项目流程概述:

在启动任何项目之前,最重要的是让合适的参与者参与进来。这些参与者可以是委托数据可视化项目的企业主或将积极使用数据可视化的主要利益相关者。业务代表的参与对于首先确定项目需求并实现需求和成功定义的共同点最为重要。参与和协作极大地增加了由此产生的可视化解决业务需求的可能性。同样,组织的数据用户也应该参与其中,尤其是在讨论他们负责管理的数据时。创建数据可视化应该是一个高度迭代和动态的过程。

从数据可视化中寻找洞察力:

可视化能够发现模式和洞察力,这些模式和洞察力可能是已知的和显而易见的,也可能是新的和出乎意料的。人们应该寻求可用于讲故事的见解,而不仅仅是期望可视化本身来说明一个故事。洞察力可以代表不同的事物,例如故事的开头或数据中的错误,因此,为了确保从数据和可视化中找到洞察力的有效方法,以下步骤很有帮助并且可以重复。

1.可视化允许对数据集进行独特的处理,并且可以通过多种不同的方式完成,例如图表、表格、地图和图形。例如,转发的信息应该提供有助于查看者做出商业决策的宝贵见解。帐户规划领域的领导者乔恩·斯蒂尔 (Jon Steel) 对查看和理解数据表示以下看法:“在广告公司的背景下,规划人员与其他人一样查看相同信息并看到不同内容的能力是无价的。他们需要能够获取各种信息,将其随机排列,并以新的模式重新排列,直到出现有趣的东西。”良好的数据可视化不仅能传达可操作的信息,还能帮助您看到其他人可能看不到的东西。

**2.分析和解释所看到的。**在此步骤中,问自己以下问题:我可以在这张图片中看到什么?是我的预期吗?有什么有趣的图案吗?这在数据上下文中意味着什么?这些问题不仅可以帮助你在可视化中找到意义,而且还可以向你表明,尽管可视化看起来不错,但可视化并没有告诉你与数据相关的任何内容。

**3.记录见解和步骤。**这一步的记录可以在你查看数据之前开始。通常,我们在开始使用数据集之前对数据集有期望和假设,并且选择特定数据是有原因的。这些想法可以被记录下来,让我们能够识别我们的先入之见,并通过找到我们预期的东西来降低误读数据的风险。文档是最关键但也是最容易被跳过的步骤。文档提供了创建图表的上下文,从而消除了查看多组图表时可能出现的任何混淆。记录时需要注意的一些事项包括: 为什么我创建了这个图表?我对数据做了什么来创建它?这张图表告诉我什么?

**4.转换数据集。**此步骤允许探索更多模式和发现。根据先前步骤形成的见解,可能会出现更多有关数据或发现的问题,并且可能需要进一步检查或分析。这可以通过诸如缩放(将数据点聚合为单个组)、过滤和异常值去除等转换来完成。