本文将介绍如何创建一个Azure Data Explorer集群,然后将其配置为Azure Synapse Analytics实例使用。
简介
在我之前的文章《将数据输入Azure Synapse数据资源管理器池》中,我们了解到如何在Synapse中创建Azure数据资源管理器池,以及如何用Azure数据湖存储中的数据填充它。这种设置的工作方式是,它需要在Synapse上创建的数据资源管理器池中填充数据。在某些情况下,人们已经有一个现有的Azure数据资源管理器集群,为用户提供数据填充。如果想在Azure Synapse中使用这些数据,并为此必须将整个数据从集群中移到Azure Data Explorer池中,这根本不是一个有效或简单的方法。幸运的是,人们并不强制要求从一个集群到另一个池进行这种类型的数据迁移。Azure Synapse分析提供了一种机制,人们可以用Azure Synapse使用外部数据源。
创建Azure数据资源管理器集群
在之前的系列文章中,我们已经介绍了如何用不同类型的池子创建Azure Synapse分析实例,最近的一个是Azure Data Explorer池子。所以在这里,我们假设已经创建了Synapse的实例,并且可以访问Azure Synapse Studio来操作这个实例。
对于那些刚接触Azure数据资源管理器的人来说,我们将首先学习如何创建一个Azure数据资源管理器集群,它与Synapse数据资源管理器池几乎相同。一旦我们创建了这个集群,我们就能得到集群的端点,利用这个端点我们将研究如何在Azure Synapse注册这个实例,以便在Synapse中使用这个集群的数据。
假设有一个Azure云账户,并具有管理Azure Data Explorer集群的必要权限,导航到这个服务的仪表板,如果没有任何集群存在,它将如下所示。我们可以通过点击名为 "创建Azure Data Explorer集群 "的按钮开始创建一个新的集群。
这将打开一个复杂的向导来创建Azure Data Explorer集群,如下图所示。第一步要求我们提供基本细节,首先是订阅和资源组名称。然后,我们需要为集群提供一个独特的名称,以及创建集群的区域。一旦完成,向下滚动以进行下一组细节。
我们需要选择计算规范,这决定了我们对将在该集群上执行的工作负载所需的配置类型。对于这个练习,我们不需要任何生产规模的配置。因此,我们可以简化这一点,为这个练习选择开发/测试工作负载。
在接下来的步骤中,我们需要选择可扩展性相关的选项--手动扩展或优化自动扩展。如果一个人需要不同程度的扩展,因为工作负载的资源需求可能非常不稳定,那么自动缩放选项将是最佳选择。在其他情况下,如果一个人需要一个固定的资源和固定的成本模式来操作他们的工作负载,在这种情况下,手动规模选项将是一个很好的起点。现在,我们将继续使用默认选项,继续使用手动选项。
在下一步,我们需要在配置步骤中启用或停用某些设置。默认情况下,基于流的摄取和清除被禁用,自动停止集群选项被启用。这些选项是从默认的基础设置角度来配置的。现在,我们不需要改变这些设置中的任何东西,我们可以继续使用默认值。
在下一步,我们需要在这一步上配置安全相关的设置。默认情况下,Azure云上的几乎所有服务和数据都是加密的。如果需要加强加密级别,也可以选择双重加密。这并不是每个使用情况下都可能需要的,所以默认是禁用的。我们有一个选项可以定义这个集群的租户,他们将使用这个集群来消费数据。目前,我们还没有定义任何外部租户,但在未来,可能会有租户使用这个集群。所以,最好在这里选择 "所有租户 "选项。系统身份和用户身份选项默认是禁用的。但如果打算从另一个系统(如Synapse)或另一个租户也使用这个集群,可能要启用它。完成用户和系统身份的配置,进入下一个步骤。
在下一步,我们需要为这个集群配置网络相关的设置。默认情况下,这个集群不在虚拟网络中创建,但可以选择启用这个设置,并指定集群应该在哪个虚拟网络中创建。
在下一步,我们需要选择性地指定我们是否要为这个集群启用诊断设置。启用这一点将导致集群向微软传输性能相关的数据。根据需要配置这个设置,然后进入下一步。
现在,如果需要,我们需要为这个集群选择性地指定标签。然后在下一步中,我们需要审查到目前为止我们所指定的配置,然后我们可以点击创建按钮来启动这个集群的创建。该集群可能需要几分钟的时间来创建。一旦集群被创建,导航到这个页面的仪表板,在滚动到入门部分后,它将看起来如下所示。
一旦集群被创建,第一步是创建一个数据库,然后在其中创建一个表和其他数据对象。一旦数据库对象到位,就可以开始数据摄取以填充这些数据库对象。一旦完成,集群就可以被访问和/或注册到Azure Synapse。
在我们开始下一步之前,假定Azure Synapse的一个实例已经到位了。导航到Synapse工作室,点击数据标签。点击加号,我们就能看到如下的选项。点击数据资源管理器数据库,在现有的数据资源管理器池中创建一个新的数据库。这不是将外部Azure数据资源管理器集群与Synapse整合的正确选项。相反,从链接部分点击连接到外部数据选项,如下图所示。
在下一步中,我们将被赋予选择支持的数据源之一的选项。其中一个是Azure Data Explorer服务,如下图所示。选择同样的服务,然后进入下一个步骤。
在这一步中,我们可以配置Azure Data Explorer集群的注册和集成。为将为Azure Data Explorer服务创建的链接服务提供一个新名称。使用AutoResolvingIntegrationRuntime,以及为集群配置的认证方法,应该可以在集群列表中找到该集群。提供租户ID以及用户或系统管理的身份名称和凭证,然后点击按钮来注册集群。只要配置值和安全证书配置正确,Azure Data Explorer集群就会被注册,人们就可以在Synapse中使用这个链接服务开始消费这个集群的数据。
这样,我们就可以在Azure Synapse分析服务中使用外部Azure Data Explorer集群。
总结
在这篇文章中,我们学习了如何创建一个新的Azure Data Explorer集群,创建数据库对象,并用仪表盘界面的数据来填充它,然后将它注册到Azure Synapse分析服务中,作为外部链接源,从集群中消费数据。
Gauri是一名SQL Server专业人员,拥有6年以上的全球跨国咨询和技术组织的工作经验。她非常热衷于研究SQL Server主题,如Azure SQL数据库、SQL Server Reporting Services、R、Python、Power BI、数据库引擎等。她在技术文档方面有多年的经验,喜欢技术编写。
她在设计数据和分析解决方案并确保其稳定性、可靠性和性能方面有深厚的经验。她还获得了SQL Server的认证,并通过了70-463等认证。使用Microsoft SQL Server实施数据仓库。
Gauri Mahajan的最新文章(查看全部)
- 基本psql命令介绍 - 2022年9月30日
- 将Azure Data Explorer集群与Azure Synapse相结合 - 2022年9月19日
- 将数据摄入Azure Synapse数据资源管理器池中 - 2022年9月16日











