在这篇文章中,我们将学习如何配置Power BI与R一起工作,并从它那里获取所需的数据集,以便在Power BI报表中进行报告。
简介
在数据科学实践中,许多框架为数据科学的各个领域提供了各种功能。在众多的数据科学框架中,R和Python是这一领域的领导者。这些框架的采用和普及是如此之大,以至于许多工具都开启了与这个框架的整合。在现代数据工程工具中,几乎沿着从数据收集到数据消费的整个数据管道,R和Python可以在端到端过程中的每一跳数据中使用。可以使用R和Python的领域包括ETL管道、使用Hadoop等框架的批处理、在报告中呈现可视化等等。数据科学框架的核心引擎是与这些框架一起使用的库和与它们一起使用的数据集。一般来说,任何数据科学工作都是从探索性数据分析开始的,它使用数据样本,然后工作的一个主要部分是提炼这个数据集,使其尽可能准确,以便机器学习或人工智能模型能够从这个提炼的数据集中推断出来。虽然这些框架不是承载数据和数据结构的数据库,但数据科学家创建的数据集以及与这些框架中使用的成千上万的库一起运送的样本数据集,使它们成为数据的来源。这就转化为像R这样的框架成为了数据的来源,可能有时需要为各种目的进行报告。像Power BI这样的报告工具提供了从R等框架中获取数据的选项,并将其呈现在PowerBI报告中。
R的安装和设置
我们将使用R作为Power BI报告的数据源。因此,在这种情况下,我们有两个先决条件,在同一台机器上设置R和设置PowerBI。假设最新版本的PowerBI已经安装在开发机器上了。虽然报告开发者可能对安装PowerBI很熟悉,但有些人可能对安装和设置R很陌生。有两种方法可以在本地机器上设置和配置R。第一种也是最直接的安装R的方法是从官方网站上下载R。这将在选择的位置安装R的设置,并在路径变量中设置R的安装路径。
另一种安装R的方法是选择SQL Server安装中的相关组件。Power BI和SQL Server都是微软技术栈的一部分,一般来说,它们一起用于数据存储和报告。如果你碰巧在本地机器上已经安装了Microsoft SQL Server,你可以考虑只在共享功能部分添加R,并将其作为SQL Server安装的一部分。一旦安装完毕,你会在名为R Server的目录中找到它,如下图所示。人们可以在PowerBI以及SQL Server数据库引擎中使用这种R的设置。这种与SQL Server和PowerBI共享R安装的机制有助于使用共享的R安装来无缝地使用通用库和数据集。

假设在安装PowerBI的同一台机器上,至少有一个R的安装。
现在R已经安装在本地机器上了,现在是时候配置Power BI桌面工具来指向这个R安装。打开PowerBI,点击文件菜单->选项和设置->选项菜单->R脚本的菜单项。这将打开与PowerBI中R脚本配置相关的页面。默认情况下,检测到的R主目录可能没有任何值。点击下拉菜单并导航到R Home目录的安装路径。一旦完成,它将显示主目录的路径,如下图所示。

如果我们使用的是使用Microsoft SQL Server安装的R的设置,一些基本的库就已经被安装了。在某些情况下,如果安装的是特定的或自定义的R设置,我们可能必须安装一些基本库。现在,我们假设已经安装了带有足够库的R,并配置了Power BI的使用。
从R中导入数据可以通过两种方式进行。R本身是一个数据处理和编程框架,所以它允许使用R脚本从各种数据源导入数据。PowerBI本身支持一百多个连接器,可以直接在PowerBI报告中输入数据。有时,数据分析师或数据科学家会创建脚本,使用R脚本获取数据并对其进行处理。人们可能希望重复使用这样的脚本,以一种一致的方式继续采购数据,而不需要将这些数据放在一个临时的存储库中,以便在PowerBI中采购。对于这样的使用情况,PowerBI提供了一个使用R脚本连接器来执行R脚本的选项,它使用我们先前指出的Power BI桌面工具的R设置来执行脚本。比方说,我们打算从一个托管在GitHub上的文件导入数据。使用一行代码,我们就能从这样的文件中获取数据。使用R连接器获取数据的前提条件是,输出应该是一个数据框架,只有这样才能在PowerBI中获取。
点击获取数据菜单项,选择R脚本连接器。它将打开一个新的对话框来指定R脚本。添加一个像下面所示的脚本,从GitHub上托管的CSV文件中读取数据。

点击确定按钮,然后Power BI将尝试使用R安装来执行这个脚本。如果脚本执行成功,提取的数据将显示在预览页面上,如下图所示。这意味着它能够成功地获取数据源。我们还可以选择在数据加载到报告之前对其进行飞行转换。

从R安装中导入数据的另一个用例是获取已安装的库中的样本数据集或作为执行R中某些脚本的输出而创建的数据集,这些数据集可以通过Power BI中的R脚本连接器从R中获取。最受欢迎的数据集之一,被使用R的数据专业人员广泛使用,它是随ggplot2库而来的钻石数据集。可能,这个库在默认情况下是不会被安装的。人们可以导航到R的可执行文件,并执行install.packages("ggplot2")命令来安装这个库及其相关的依赖项。我们将在接下来的例子中使用这个库,我们假设这个库已经安装在你的R设置中。
重复上面的步骤,进入如下所示的脚本。在这里,我们在第一步将ggplot2库导入我们的脚本中。在接下来的步骤中,我们将使用data函数指向钻石的数据集。

如果脚本成功执行,我们就可以在预览页面上查看数据,如下图所示。

这样,只需几行代码并使用R脚本连接器,我们就可以开始从R安装中获取数据,并通过R安装来使用Power BI报告。
总结
在这篇文章中,我们首先学习了如何直接安装R,以及安装SQL Server。我们配置了Power BI桌面工具以指向R的安装,然后我们学习了如何使用R连接器和脚本来从R以及使用R从其他来源获取数据。