在本文中,我们将学习如何在Azure Synapse中配置一个新创建的Data Explorer池,然后将数据摄入同一池中。
简介
在我之前的文章《在Azure Synapse中开始使用数据资源管理器池》中,我们了解了如何在Azure Synapse中创建数据资源管理器池,以及数据资源管理器为半结构化和自由文本数据带来的独特价值。创建数据资源管理器池是这个过程的第一步。池子创建后,人们可以创建数据结构,摄取数据,然后使用数据进行消费。数据资源管理器池界面提供了将数据摄入池中的不同方式,包括一键摄入。
在我们进行这个练习之前,假定已经创建了Azure Synapse的实例以及Azure Data Explorer池,正如上一篇文章中所解释的。一旦创建了池,它将如下图所示。创建池是这个过程的第一步。一旦创建了池,下一步就是在Azure Data Explorer池中创建一个新的数据库,如下图所示,在池的仪表板上。
点击创建数据库按钮,使用新数据库创建向导创建一个新数据库。我们只需要提供基本细节--数据库名称、保留期和缓存期。这些都是以天为单位,保留期的默认值是365天,缓存期的默认值是31天。提供这些值,然后点击创建按钮,在Azure Synapse的Azure Data Explorer池中创建一个新数据库。
一旦创建了新的数据库,下一步就是开始在其中创建数据结构,并将数据填充到其中。一旦数据库被创建,我们将得到两个选项,如下图所示。一个是立即输入新数据,在输入过程中创建新的数据结构。另一个选项是创建一个新的数据连接到另一个数据资源管理器池或集群。一旦点击摄取,如下所述,能够自动摄取数据,并且也提供了各种数据管理功能。
点击创建数据连接按钮,它将打开一个新的屏幕,如下图所示。截至本文起草时,数据资源管理器池支持三种类型的连接,即与Event Hub、Blob Storage和IoT Hub。这些数据源通常以半结构化的格式提供数据,如JSON、CSV、parquet等格式。目前,我们不会专注于与这些数据源建立新的连接,相反,我们将专注于从Azure数据湖存储中摄取新数据,这通常是数据湖场景中的主要数据源。
在我们点击摄取新数据按钮之前,我们也可以看看如何从这一步创建与Azure数据湖存储的连接。选择Blob存储选项,它将显示以下页面,以定义配置,创建一个新的连接到Azure数据湖存储。我们需要在存储账户设置中选择Azure数据湖存储账户,其余细节可以使用默认值。现在,我们将停放数据连接主题,继续进行数据摄取方面的工作。
一旦我们点击摄入新数据按钮,就会打开一个新界面,如下图所示。摄取数据的向导已经打开,第一步需要注册Azure数据资源管理器池或Azure数据资源管理器集群,并在其上托管一个数据库。我们可以选择创建一个新的表或使用现有的表来填充正在摄取的数据。
在这个界面中,在我们进行其他步骤之前,我们可以看看左边窗格中的数据标签,如下图所示。这个选项卡列出了所有不同的数据管理选项,可以在数据资源管理器池上执行。主要的或最频繁的操作是创建一个新的表或将数据摄入到一个表中,这些都列在快速操作部分,如下图所示。
在快速操作窗格下面,我们可以找到注册外部数据、创建新表以及从本地文件、blob容器、ADLS和Event Hub等数据源摄取数据等选项。现在,我们将继续进行从Azure Data Lake Storage摄取数据的步骤。要做到这一点,请点击快速链接部分中的摄取数据选项。
这里的集群已经列出了我们在Azure Synapse上创建的Azure Data Explorer池。这里列出的数据库是我们在步骤2中创建的,在我们创建了数据资源管理器池之后。使用创建新表选项,在这里我已经创建了一个表用于演示,所以这里已经列出了这个表。如果那些人没有任何表,他们也可以选择创建新表选项,这将导致首先创建一个新表,然后它将被数据源的数据填充。
在下一步,我们需要选择数据源的配置。由于我们要从Azure Data Lake Storage中获取数据,所以源类型将是一个blob容器。如下图所示,我们可以使用历史数据选项批量加载大量数据,也可以继续使用一次性连续加载的默认选项,它将暂时加载数据,然后为后续加载创建一个事件网格连接。在我们的案例中,我们将继续使用默认的一次性和连续选项。我们可以指定确切的容器,而源文件可能会被托管,所以我们将选择容器选项,而不是使用URL选项,如下图所示。然后我们可以在存储账户设置中选择Azure Data Lake存储账户,如下图所示。完成后,选择我们打算用作摄取到Azure Synapse的Azure Data Explorer池的确切文件。
在下一步,我们将能够查看这个工具从文件中推断出来的文件模式。在这里,它准确地检测了字段的值和数据。我们可以选择配置数据解析设置,以便按照需要读取数据。我们可以使用现有表格中的源字段和目标字段之间的现有字段映射,或者也可以创建一个新的映射。
一旦完成,点击 "下一步"按钮,审查摘要的细节。审查后继续进行下一步,在Azure Synapse的Azure Data Explorer池中的目标表中填充数据。一旦数据加载完毕,我们就可以导航到Azure Synapse分析工作室,打开Web UI界面,探索数据资源管理器池中的数据对象,并从这些对象中查询数据。键入下表的名称,我们就能找到这个表的结果和统计数据。这里它将显示数据集的大小以及其中的总记录。
通过这种方式,我们可以将数据摄入Azure Synapse中Azure Data Explorer池上托管的表中。
总结
在这篇文章中,我们首先在Azure Synapse中设置了Azure Data Explorer池,并通过创建一个数据库和在其中创建表来配置它。我们用Azure数据湖存储的数据填充它,并从Azure Synapse Studio的数据选项卡中访问这些数据。