如何制作人们不会讨厌的 Word Clouds

211 阅读8分钟

憎恨者会憎恨文字云。但它们仍然是有用的可视化,而且你可以让它们变得更好。

照片由 国家海洋局 潇湘晨报

文字云。它们听起来是那么的轻盈、蓬松和有趣。它们是将文本数据中的术语频率可视化的一种流行方式。但数据评论员长期以来一直批评这些方便的图形,如"词云是蹩脚的""词云。我们不能让它们消失,所以让我们改进它们",以及标题相当激进的"词云被认为是有害的"。哎哟。

这些人对词云有什么意见?当它们没有被明智地使用时,它们确实会有问题,但是有一些方法可以使它们变得更好。让我们看看对词云的批评,看看我们如何绕过它们的潜在陷阱,特别是当你使用Alteryx Designer和Alteryx Intelligence Suite的Text Mining调色板中的词云工具时。

图片来源于 GIPHY

大部分是阴天?词语云的批评

对词云的一些常见批评是什么?以下是上面链接的文章的简要介绍。

  • 词语云通常分享的信息是不言自明的或明显的。一个产品评论的词云可能会用大字体显示产品名称,因为这些名称经常出现--但这对浏览者来说不是一个有用的洞察力。而且,如果它们没有被删除,停顿词(经常出现的词,如英语中的 "the"、"a "或 "an")也会使词云变得杂乱无章,使人难以看到重要的词。
  • 词云常常孤立地显示单个单词,而忽略了有价值的背景和周围的叙述。它们将复杂的文本数据减少到最低限度--也许是_太_低了。浏览者必须弄清楚这些词如何显示的意义,而他们可能会得出错误的结论。
  • 字体大小并不能清楚地表明单词的实际频率;更大的字体意味着一个单词出现的频率更高,但要进行更细致的比较或排名是很困难的。

这些作者提出了一些好的观点。我们可能都创建过第一次尝试的词云,其中包括无用的词,或者没有为数据提出一个故事。

那么,鉴于词云有时可以成为以视觉吸引人的方式总结文本数据的好方法,我们怎样才能解决词云的这些缺点呢?

通过图片 GIPHY

停止语的风暴

你可以用一些策略来解决你的词云的这些问题。让我们来看看其中的一些。我将使用一个我以前用来演示情感分析的数据集;它包含了对服装项目的评论。

首先,我们可以相当容易地处理自明词和停止词的问题。在Alteryx设计器中,一定要在你的词云工具之前设置一个文本预处理工具。然后,在文字云工具中,一定要选择原始字段名后面带有_processed的文本字段;我曾多次忘记这样做在预处理步骤中,你可以删除数字、标点符号和停止词。

默认的停顿词来自spaCy,即这个工具的基础Python NLP包。然而,你可以添加你自己的停顿词,以去除那些无助于观众从词云中获得意义的痛苦的明显术语。

下面,我从词云中删除了 "上衣 "和 "衬衫",因为这个词云将只代表服装评论中的 "上衣 "类别。在词云中突出地看到 "上衣 "和 "衬衫 "并不能帮助我们理解人们对它们的评价。

图片由作者提供

显然,你应该谨慎地省略默认停止词之外的其他词,以免无意中误导了你的数据,但我会为浏览者提供上下文,确保他们知道这个词云只限于对上衣的评论。

通过图片 GIPHY

这个云对你来说是什么样子的?

在我们确保只有有用的、相关的词被包含在词云中之后,我们怎样才能确保浏览者提取我们希望在可视化中分享的有意义的故事呢?看看下面的词云,它代表了所有包含 "布料 "这个词的负面服装评论的文本。这里有什么关键的收获,甚至是一些有趣的观察,可以跟进?这就很难说了。

图片由作者提供

根据你的词云的主题和你想分享的故事,有一个以上的词云可能更有意义。例如,如果我的目标是分享围绕不同服装类别(如上衣、连衣裙、裤子)的主要客户反应,那么首先将我的数据集和评论文本分为这些类别,然后再制作词云可能更有意义。另外,我也可以按主题(如面料、尺码)和/或按情感分析得分(即正面或负面评论)来划分评论。

有了较小的相关词语分组,浏览者可以专注于每个主题中的关键收获,而不必研究所有的词语并找出一个总体信息。正如一项研究报告所说,"最好是将这些词组织成意义区,并通过空间或颜色分组,在视觉上将这些区显示出来"。

提及面料的负面评论的词云,按服装类型分组(从左到右:连衣裙、上衣和夹克;图片由作者提供)。

如果我们按服装类型对负面评论的文字进行细分,如上图所示,我们现在立即看到可能令人信服的差异。当顾客在负面评论中提到面料时,顾客也在评论XS尺寸的连衣裙;一些上衣有一些 "奇怪 "的地方;而颜色在夹克衫中特别明显。

不幸的是,大多数这样的分组必须手动进行--或者至少是半手动的。在设计器中,你可以使用公式和/或过滤器工具来设置 "主题 "的标准,以确定哪些文本项目被送入每个词云。你还可以在词云工具中为你的不同主题选择不同的颜色方案,这样图像在视觉上就会有区别。

你也可以使用主题建模来帮助识别关键的主题,然后使用主题建模的分数来划分你的文本数据。如果你想阅读更多关于主题建模的内容,这里有我们的系列教程的开始,一个使用它的SFW演示,以及一个可能是NSFW的演示

通过图片 GIPHY

当云雾遮蔽时。频率和排名

词云可以变得更加有用,但有时你可能想要一个不同的选择。例如,当浏览者需要更详细地了解文本数据中不同词语的相对频率和/或排名时,词云可能会让你失望。显示关键词的柱状图可能是一个更好的选择。

例如,也许你想深入了解你的18-34岁的顾客的意见,特别是他们对你的上衣的积极评价,这样你就可以看到他们真正喜欢哪些特征。下面的柱状图显示了一种方法,可以看到他们最常用的词的排名(在默认列表中加入了几个明显的停止词--衬衫上衣爱_和_伟大)。尺寸和合身似乎是快乐的顾客讨论的流行标准;在这种形式下也很容易看到,尺寸和合身比 "舒适 "更常被提及。

图片由作者提供

从你的文本创建这样的柱状图需要更多的步骤,你可以在本文原始版本所附的工作流程中看到。设置在 "分割成行 "上的 "文本转列工具 "使其有可能将文本评论转换为单独的行;通过 "汇总工具 "和 "交互式图表工具",条形图很快就形成了。

这篇文章还展示了一个用于可视化文本的热图的很酷的例子(请看第2项)。

天气观察。谨慎行事

虽然有些人可能不欣赏文字云,但当然也可以明智地使用它们。与任何数据可视化一样,目标是将信息有效地传达给你的观众,所以将此作为重中之重,你的天空应该是晴朗的!

在以下网站找到本文提到的Alteryx工作流程 Alteryx数据科学博客.

推荐资源

  • 阅读一些用于可视化文本数据的词云替代方案
  • 上面提到的这篇文章,对文字云进行了基于研究的批评,并对其提出了周到的建议。
  • 这个教程展示了如何使用Python来构建词云,你可以用Python工具将这种方法构建到Alteryx工作流中。
  • 关于各种数据可视化的更多信息,请查看我们的数据科学混合播客节目,其中有数据可视化专家和作者Alberto Cairo;我们有一个简短的节目一个完整的节目供您欣赏。

medium.com/media/d3560…

原文发表于Alteryx社区 数据科学博客.


如何制作人们不会讨厌的文字云》最初发表在《走向数据科学》杂志上,人们在那里通过强调和回应这个故事来继续对话。